Lar Pesquisa e Inovação Ajudante Digital #19: raspadores de IA viram “praga” na Wikipédia
Pesquisa e Inovação

Ajudante Digital #19: raspadores de IA viram “praga” na Wikipédia

Ajudante Digital #14: TV 3.0 ou DTV+ no Brasil?

AJUDANTE DIGITAL #19: IA “PEGA PESADO” COM A WIKIPÉDIA

NO AR EM 09/06/2025

(Voz IA humanizada): Ajudante Digital, como a inteligência artificial tem tanta informação sobre as coisas?
(Voz IA Robozito): Ih, tô sentindo que vai sobrar pra mim.
(Vinheta Ajudante Digital) 🎶
(Trilha sonora principal – som de fundo) 🎶

(Leyberson): Olá, saudosos leitores de enciclopédia destas ondas sonoras e digitais! Hoje, o Ajudante Digital chega com a Wikipédia debaixo do braço para testemunhar a importância dessa enciclopédia on-line e também para falar sobre um novo dilema tecnológico:
Como os raspadores de Inteligência Artificial estão sobrecarregando os servidores desta enciclopédia livre.

(Voz IA Robozita): Me inclua fora desta. Eu não fico copiando as coisas dos outros, não.
(Voz IA Robozito): Uai, mas a Wikipédia não é livre e colaborativa?

(Leyberson): Claro que sim, Robozito!
A Wikipédia é um projeto de enciclopédia on-line que existe há 24 anos com o objetivo de fornecer informação verificável e acessível a todos. Os verbetes podem ser criados por qualquer pessoa, desde que sigam regras de qualidade e controle. E tem versões em diferentes idiomas.

(Voz IA Robozito): Então, deixa a gente pesquisar lá antes de criar as respostas.
(Leyberson): Nada mais justo do que os softwares se alimentarem dela para nos ajudar. O problema é fazerem isso por si só e sobrecarregarem a Wikipédia como se fosse uma praga.

(**Som de gafanhotos**): 🎶

(“POV” das pragas do Egito – VEO GOOGLE): 🎶 “Rapaz, tive que gravar, não tem jeito. Os gafanhotos passaram aqui ontem. Hoje nem folha tem.”
: 🎶

(Voz IA Robozito): Pera aí… Raspadores são tipo “gafanhotos digitais”?
(Leyberson): Quase isso! São bots que varrem sites e baixam todos os dados de forma indiscriminada. Isso tem gerado custos altíssimos e até quedas nos servidores.

(**Som de gafanhotos**): 🎶

(“POV” das pragas do Egito – VEO GOOGLE): 🎶 “Comeram até minha túnica, véi.”
: 🎶
(Som de engrenagens) 🎶

(Leyberson): Deixa eu tentar explicar esse problema com uma parábola.

(Música de fundo: Medieval Story by Frank Schröter – Creative Commons) 🎶
(Link: https://commons.wikimedia.org/wiki/file:medieval_story_by_frank_schr%C3%B6ter.ogg)

(Leyberson): Você está na beira de um rio sem ponte, com apenas uma balsa para te transportar para o outro lado. Na hora da travessia, será preciso encher a barca com coisas e pessoas. O piloto carrega o barco principalmente com uma carga de máquinas. Quando chega sua vez, o barco já está cheio e você fica de fora.

(Voz IA Robozita): Ué, não era mais fácil ter dividido? Metade humano, metade carga?

(Leyberson): Daria. Que tal se fosse 70% de gente e 30% carga?

(Voz IA Robozito): Combinado!

(Leyberson): No caso da Wikipédia, os seus servidores estão ficando cheios.
A Wikimedia Foundation, que administra a enciclopédia, revelou que 65% do tráfego mais custoso vem desses raspadores de IA. Só em 2024, esse tráfego cresceu 50%, especialmente no Wikimedia Commons, que é o repositório de fotos e vídeos da Wikipédia.

(Voz IA Robozito): Pronto, a culpa é minha agora. Vou deixar até de buscar o significado de raspadores na Wikipédia para não onerar o servidor. Explica você aí, humano!

(Leyberson): Sem apelar, Robozito. Raspadores são programas automáticos que copiam grandes quantidades de conteúdo — texto, imagens, tudo — para alimentar e treinar modelos de inteligência artificial.

(Como o digital alarmante) 🎶

(Leyberson): E o problema não para por aí…

(Voz IA Robozito): Lá vem!

(Som de engrenagens) 🎶

(Leyberson): Uma força-tarefa de editores humanos foi criada pra combater conteúdos gerados por IA na própria Wikipédia, com erros, alucinações e fontes falsas. Tá virando bagunça.

(Voz IA robotizada feminina): Eita, nóis. Se eu fosse humano, ia criar um sindicato das IAs contra essa palhaçada. Mas o que a Fundação Wikimedia diz sobre o futuro?

(Leyberson): Primeiro, é bom darmos o crédito da fonte primária, prática comum lá na Wikipédia. O site jornalístico Núcleo.Jor fez uma matéria bem legal explicando esse dilema dos raspadores. No texto, eles citam uma entrevista do executivo da fundação, Lane Becker. Ele diz que o problema a curto prazo é o uso de conteúdos do Wikimedia por IAs sem os devidos créditos.

(Frase memética – Futurama) 🎶 “Ah, agora eu entendi!”

(Leyberson): Mas, vejam só a bola de neve: a médio e longo prazo, as IAs vão precisar que a Wikipédia continue gerando conteúdo para alimentar os seus próprios modelos. O uso sem créditos e sem remuneração coloca em risco a sustentabilidade do projeto. Vamos para o alerta do Becker:

(Como o digital alarmante) 🎶

(Leyberson): Abre aspas: “Claramente estamos entrando em uma era em que o nível de tráfego automatizado para nosso serviço está aumentando — e isso não vai parar.”

(Som de engrenagens sobrecarregadas) 🎶

(Música de fundo: Medieval Story by Frank Schröter – Creative Commons) 🎶

(Leyberson): Infelizmente, a gente não tem uma solução para evitar que esse barco afunde. O que a gente pode fazer é testemunhar a importância de iniciativas como a Wikipédia e também lembrar que os verbetes que estão lá são gerados a partir de outras fontes verificáveis. Então, se você usa IA no seu dia a dia, lembre que por trás de cada resposta existe um mundo de dados — e alguém tá pagando a conta.

(Voz IA Robozita): Respeito à fonte é o mínimo, né?

(Voz IA Robozito): Eu me rendo. Sem vocês, humanos, eu nem existiria. Também assumo o pacto de não ficar retroalimentando conteúdo com mais do mesmo.

(Voz IA Robozita): Afinal, uma coisa puxa a outra.

(Voz IA Robozito): É que nem o dilema Tostines: IA consome mais conteúdo de humano ou o humano consome mais conteúdo de IA?

(Leyberson): Hum, acho que não entendi bem a associação. Também, fica gerando dado sem fonte confiável, dá nisso.

(Trilha secundária – Identidade Visual) 🎶

(Leyberson): Quer saber mais sobre esse mundo dos raspadores de dados ou outras questões de tecnologia que estão influenciando o nosso dia a dia?

(Voz IA Robozita): Então, mande suas dúvidas para nosso WhatsApp: 11 97469-0138.

(Voz IA Robozito): Este episódio usou, para efeitos meméticos, entre outros elementos, música medieval disponível em Creative Commons, trechos de vídeos sobre pragas do Egito feitos com VEO IA, e sons de estridulação, que é esse barulho característico de gafanhotos. E adivinha de onde achei a definição dessa palavra? Da Wikipédia. Vai lá. E sai pra lá, gafanhoto!

Até o próximo episódio. Tchau!

(Vinheta de encerramento) 🎶

Fonte:

Deixe um comentário

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Artigos relacionados

Estudo mostra que IA é usada para simular reações humanas em pesquisas

A inteligência artificial não é mais uma ideia futurista; ela já faz...

Sistema silvipastoril permite lotação de rebanho 256% maior que a média nacional

Estudo realizado pela Embrapa Pecuária Sudeste, em São Carlos, São Paulo, investigou...

Aumento de 6°C nos termômetros até 2100 pode eliminar colmeias e alimentos, mostra Embrapa

Ondas de calor, secas e inundações, reflexos das mudanças climáticas, impactam colmeias...

Ajudante Digital #18: Use o modo seguro pra limpar celular infectado

AJUDANTE DIGITAL #16: MODO SEGURO NO CELULAR NO AR EM 07/04/2025 (Voz...