Pular para o conteúdo

Wayback Machine sob ataque: como a guerra da IA contra a mídia ameaça a preservação da memória da internet e o futuro do conhecimento online

Gigantes da comunicação bloqueiam o Internet Archive, temendo uso indevido por inteligências artificiais, colocando em risco o registro histórico da web.

A preservação da memória da internet, um pilar fundamental para a história, o jornalismo e a pesquisa, enfrenta uma crise sem precedentes. O Internet Archive, com sua plataforma Wayback Machine, que guarda mais de um bilhão de sites arquivados, está sob pressão existencial, conforme informações divulgadas pela Deutsche Welle e repercutidas pelo g1.

O projeto, essencial para acessar conteúdos originais de páginas alteradas ou excluídas, vê um número crescente de empresas de comunicação negando o acesso aos seus materiais. Este movimento pode ter implicações devastadoras para a capacidade da sociedade de compreender o passado digital.

Essa complexa situação levanta questões cruciais sobre direitos autorais, o futuro da informação e a responsabilidade de quem detém o poder sobre o conteúdo online. A seguir, exploramos os motivos por trás dessa ameaça e as possíveis consequências para a infraestrutura da informação global.

A Luta do Wayback Machine pela Sobrevivência

Há três décadas, o portal archive.org tem sido o guardião da memória da internet, com o Wayback Machine funcionando como uma ferramenta indispensável. Jornalistas, pesquisadores, historiadores e juristas dependem dessa plataforma para acessar conteúdos que, de outra forma, estariam perdidos ou teriam sido alterados.

Contudo, este projeto fundamental, criado em São Francisco, nos EUA, enfrenta agora uma crise existencial. A ameaça mais recente e significativa vem justamente dos veículos de imprensa, que estão barrando o acesso do Internet Archive aos seus conteúdos.

Uma pesquisa da Nieman Foundation for Journalism, da Universidade de Harvard, revelou que pelo menos 241 portais de notícias de nove países já bloquearam o acesso da Wayback Machine. Entre os veículos de grande porte estão o britânico The Guardian, o americano New York Times, o francês Le Monde e o USA Today, o maior conglomerado jornalístico dos Estados Unidos.

O Dilema dos Veículos de Comunicação e a Ascensão da IA

A razão por trás da decisão dos veículos de comunicação de bloquear uma ferramenta que eles próprios utilizam é direta: o medo do uso indevido por inteligência artificial. Os jornais temem que empresas de IA, como OpenAI ou Google, acessem os conteúdos jornalísticos arquivados na plataforma para treinar seus modelos de linguagem sem autorização e sem pagamento.

Graham James, porta-voz do New York Times, expressou essa preocupação: “O problema é que os conteúdos do New York Times no Internet Archive são utilizados pelas empresas de IA, que infringem direitos autorais para concorrer diretamente conosco”. Essa declaração ressalta o cerne do conflito entre a mídia e as empresas de tecnologia.

De fato, dados revelam que inúmeros robôs acessam o archive.org em busca de conteúdos jornalísticos para treinamento de IA. Mark Graham, diretor do Wayback Machine, disse à revista Wired que algumas empresas chegaram a fazer dezenas de milhares de solicitações por segundo, sobrecarregando temporariamente os servidores da organização sem fins lucrativos.

Consequências Alarmantes para o Jornalismo e a História Digital

A atitude dos veículos de imprensa é comparada pela Electronic Frontier Foundation (EFF), organização de direitos humanos especializada em questões digitais, a uma situação em que “um jornal proibisse bibliotecas de manter cópias de seu periódico”. Essa analogia destaca a gravidade da interrupção na preservação da memória da internet.

Mais de 100 jornalistas assinaram uma petição em apoio ao Internet Archive, alertando em carta aberta: “Em um cenário de mídia digital em que artigos desaparecem devido à perda de links, fusões de empresas ou cortes de custos, os jornalistas dependem frequentemente da Wayback Machine do Internet Archive para recuperar páginas que, de outra forma, estariam perdidas. Sem esse trabalho contínuo de preservação da Internet, grande parte da história jornalística recente já teria se perdido.”

Mark Graham, do Internet Archive, reconhece o impacto: “Não há dúvida de que o bloqueio crescente de grande parte da internet pública prejudica a capacidade da sociedade de compreender o que está acontecendo em nosso mundo”. A fragmentação da internet pública é uma ameaça real à nossa compreensão coletiva e ao acesso à informação.

Soluções para a Crise: Arquivamento como Infraestrutura Pública

Martin Fehrensen, repórter especializado em mídia e fundador do socialmedia watchblog.de, vê no archive.org o único registro funcional da web aberta. Ele adverte que, se a plataforma não puder cumprir essa função, as consequências serão graves, como a perda de referências na Wikipedia e a dificuldade em pesquisas sobre a responsabilidade de plataformas, além da perda de evidências digitais com valor probatório judicial.

Fehrensen sugere duas vias para resolver o conflito. A primeira é um diálogo com os editores, buscando uma separação técnica clara entre o arquivamento e o treinamento de IA, que é o verdadeiro ponto de atrito. A segunda, a médio prazo, é a criação de um status jurídico especial para os arquivos da web.

A longo prazo, ele defende que o arquivamento da internet seja tratado como infraestrutura pública, não como um projeto isolado de uma ONG em São Francisco. “O fato de que, em 2026, ele ainda dependa de uma única organização é a verdadeira falha estrutural”, conclui Fehrensen, sublinhando a necessidade de uma solução sistêmica para a preservação da memória da internet.

Desafios Anteriores e a Gravidade da Crise Atual

Esta não é a primeira vez que o Internet Archive enfrenta grandes desafios. Em setembro de 2024, um ataque hacker resultou no roubo de 31 milhões de contas de usuário, um golpe do qual a organização conseguiu se recuperar com resiliência.

No mesmo ano, o Archive perdeu um processo de direitos autorais em um tribunal de apelação dos EUA, movido por editoras como Hachette, Penguin Random House, HarperCollins e Wiley, devido ao seu programa gratuito de empréstimo de e-books. Mais de 500 mil livros foram retirados da plataforma, e a organização ainda enfrenta pedidos de indenização milionários.

No entanto, a ameaça atual dos bloqueios da mídia é considerada estruturalmente mais grave. Diferente de decisões judiciais ou atualizações técnicas, ela resulta de inúmeras decisões corporativas que, em conjunto, minam a essência do Wayback Machine: a documentação completa da internet pública e a preservação da memória da internet para as futuras gerações.

Este conteúdo foi útil?

Clique nas estrela para avaliar!

Média de avaliação 0 / 5. Vote count: 0

Ainda não há votos! Seja o primeiro a avaliar.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *