Dois milhões de notícias holandesas foram removidas do banco de dados de IA.

A questão é o Common Crawl, um programa de extração de dados (scraper) de uma organização sem fins lucrativos americana que cria cópias de inúmeros sites. Essas cópias estão disponíveis gratuitamente para qualquer pessoa usar, inclusive para treinar modelos de IA.
O Common Crawl contém atualmente 2,6 bilhões de páginas da web. Quase todos os principais modelos de IA utilizam essa coleção, incluindo ChatGPT, Claude e Deepseek.
Os sites extraídos também incluem dezenas de milhares de páginas holandesas, desde pequenos sites até grandes plataformas de notícias. Brein constatou que o banco de dados continha artigos de sites de notícias holandeses e jornais digitais, entre outros, que haviam sido copiados sem permissão.
Os sites de notícias são uma fonte vital de informação para modelos de linguagem e chatbots de IA. Isso também representa uma ameaça para esses mesmos sites, já que a IA pode reduzir o número de visitantes, resultando em menor receita para os sites de notícias.
A NDP Nieuwsmedia, associação comercial de empresas de notícias, argumenta que as empresas de IA estão "parasitando o trabalho dos jornalistas" ao usar esse tipo de ferramenta de extração de dados.
"É muito prejudicial para autores e editoras que seus textos sejam usados sem permissão", disse Bastiaan van Ramshorst, diretor da Brein, à RTL Z. "Por isso, solicitamos, em nome de várias editoras, a retirada desses artigos da internet."
Segundo Van Ramshorst, o Common Crawl respondeu rapidamente à solicitação, mas levará algum tempo até que todos os artigos estejam offline. "Isso porque é um banco de dados muito grande. Isso também dificultou determinar exatamente quais artigos estão nele."
O fato de os artigos não estarem mais neste banco de dados não significa que eles não aparecerão em modelos de IA. Os modelos existentes já processaram os artigos e eles não desaparecerão. Além disso, empresas de IA também estão desenvolvendo seus próprios scrapers, mas não está claro se eles contêm dados protegidos por direitos autorais.
"Se um modelo desse tipo não for transparente, é muito difícil determinar os dados subjacentes", diz Van Ramshorst. "Nós pesquisamos isso, mas é um processo bastante demorado."
Um pequeno ponto positivo: no próximo ano, entrará em vigor uma nova lei europeia, a Lei de IA, que exigirá que as empresas de IA sejam mais transparentes sobre suas fontes.
Além de notícias e outros textos, a música também é usada para treinar inteligência artificial. Este vídeo mostra como a banda The Velvet Sundown acumula milhões de reproduções, mesmo sem existir de fato:
RTL Nieuws




