A internet ficou pequena para as empresas de IA.

É de conhecimento comum que a Inteligência Artificial Generativa é alimentada por um volume gigantesco de dados. Contudo, sistemas cada vez mais poderosos desenvolvidos pela OpenAI, Google, Antrophic e outros tem exigido oceanos maiores de informações para sustentar este aprendizado. Estes modelos de linguagem de IA são construídos usando textos extraídos da Internet, incluindo pesquisas científicas, artigos de notícias e entradas de dados de plataformas como a Wikipédia. Esse material é dividido em tokens, que são palavras e partes de palavras que os modelos usam para aprender como formular expressões humanas.

Como a internet ficou pequena se milhões de terabytes são gerados diariamente na rede?

Por uma questão simples, a IA precisa ser alimentada por dados com qualidade, estruturados, rotulados e identificados, sejam eles textos, vídeos, imagens, áudios ou modelos tridimensionais para que possa aprender. Porém, a maior parte desse grandioso volume de dados gerado diariamente na internet não está pronto para treinar uma IA, pois são de baixa qualidade e isso tem sido um dos grandes desafios dos executivos das Big Techs na corrida pela liderança do mercado.

Segundo Villalobos, Sevilla, Heim, Besiroglu, Hobbhahn e Ho (2022), no artigo “Vamos ficar sem dados? Uma análise dos limites de dimensionamento de conjuntos de dados no aprendizado de máquina”, o crescimento da taxa de acumulação de dados de qualidade na internet para modelos de linguagem de inteligência artificial é muito mais lenta do que o crescimento no tamanho do conjunto de dados que observamos até agora, tanto historicamente quanto levando em conta as restrições da computação. Como consequência, podemos estar caminhando para um gargalo nos dados de treinamento.

Estudo realizado por pesquisadores do MIT e Epoch.

Segundo este estudo, os estoques de dados produzidos por professores, pesquisadores, profissionais especializados e escritores (alta qualidade) inseridos na internet e que possuem conteúdos mais confiáveis do que os diálogos das redes sociais (baixa qualidade), crescem em um ritmo muito mais lento do que o volume de dados necessários para o treinamento das inteligências artificiais. Ainda segundo o artigo, estes dados se esgotarão já em 2026 se tornando o principal gargalo para dimensionar modelos de aprendizagem de máquina, resultando numa desaceleração no progresso da IA. Aliado a esta análise, recentemente, o The Wall Street Journal, publicou o artigo “Para empresas de IA que consomem dados, a Internet é muito pequena”, reforçando esta mesma tese sobre o esgotamento dos dados públicos online de qualidade até o ano de 2028, comprometendo o desenvolvimento das inteligências artificiais.

Empresas de conteúdo se tornarão mais valiosas.

Esta luta por dados fez com que o New York Times e outros sites, bloqueassem o acesso das empresas de IA as suas plataformas, principalmente por violarem os direitos autorais, mas também por se tornarem concorrentes na busca de informações confiáveis sobre diversos assuntos. Isso tem feito a busca de dados de alta qualidade mudar, afinal, ninguém quer desacelerar o desenvolvimento de suas plataformas.

Apesar das empresas de IA não fornecerem detalhes sobre o material usado para treinamento dos modelos, o que é um grande problema de transparência, sabemos que estão criando abordagens de captura e utilização de dados cada vez mais agressivas. Seguindo essa lógica, as empresas que possuem nossos dados como a Meta (Facebook, Whatsapp, Instagram e Trends), Google, TikTok e Youtube, se posicionam na frente nesta corrida, pois podem utilizar os arquivos das plataformas, de textos a vídeos, mesmo com baixa qualidade, para treinamento das inteligências artificiais. Também seguindo este raciocínio, a posição estratégica destas plataformas de conteúdo para o mercado de IA passou a ser fundamental, tornando-as uma mina de ouro.

Para você ter uma ideia, estima-se que o GPT-5, o próximo modelo da OpenAI, necessitaria de 60 trilhões a 100 trilhões de tokens de dados para ser eficaz. Segundo a pesquisa da Epoch (instituto de pesquisa que investiga as principais tendências e questões que moldarão a trajetória e a governança da IA), o GPT-4 foi treinado com até 12 trilhões de tokens.

Atualmente, há uma escassez de 10 trilhões a 20 trilhões de tokens de alta qualidade, o que gera muitas especulações sobre como será possível superar este déficit. Uma delas é com a possibilidade do uso de vídeos públicos do Youtube ou das Redes Sociais para o treinamento do GPT-5, o que acende vários alertas, visto que até o próprio CEO da OpenAI , Sam Altman, já afirmou publicamente que é inviável treinar uma IA sem avançar sobre conteúdos protegidos por direitos autorais.

Quais as alternativas para a escassez de dados?

Diante da escassez de dados de alta qualidade para o treinamento de inteligências artificiais, existem algumas estratégias que podem ser usadas visando superar este desafio, tais como, o uso de técnicas de aprimoramento da coleta de dados, data argumentation, transfer learning, geração de dados sintéticos, crowdsourcing, uso de modelos baseados em conhecimento e técnicas de machine learning não supervisionado. De forma ampla, todas estas técnicas inserem riscos na produção de conteúdo pois podem criar informações que não representem com precisão o mundo real, levando a modelos que podem falhar em situações práticas ou inserindo vieses que podem afetar a precisão das inteligências artificiais.

Analisando todo este contexto, acredito que em breve sairemos da fase de euforia no qual a inteligência artificial seria a salvação para todos os problemas, para uma etapa com discussões mais maduras, centradas na realidade e nas limitações existentes, de forma a mitigarmos os riscos e avançarmos na direção de modelos mais confiáveis e sustentáveis.

Escrito por:

Data:

Compartilhar: