Telecomunicações, computação e informações

Infraestruturas soberanas podem inverter dependência tecnoeconômica

Sergio Amadeu da Silveira, A terra é redonda, 23 de julho de 2025

O Brasil teve um déficit de 7,1 bilhões de dólares no item Telecomunicações, Computação e Informações da Balança de Serviços em 2024.[i] Esse número para as dimensões do país pode ser considerado pequeno se não observarmos sua série histórica e desconsiderarmos as tendências tecnológicas atuais. Em 2018, seis anos antes, o déficit no mesmo item foi de 2,1 bilhões de dólares.

Enquanto o déficit na Balança de Serviços entre 2018 e 2024 cresceu aproximadamente 52%, o déficit com serviços de telecom, computação teve um crescimento de 229%. Essa diferença ocorreu devido ao avanço da chamada dataficação, ou seja, da conversão crescente dos fluxos de atividades humanas e não humanas em dados a serem capturados e analisados.

Os dados são a fonte indispensável da chamada Inteligência Artificial e geram uma enorme demanda por armazenamento e processamento em Data Centers. Há uma corrida por aplicações da Inteligência Artificial que só está no começo. A perda de dólares do país com computação só irá aumentar.

As consultorias internacionais, como a Gartner Group, como sempre, fazem projeções que visam instigar a venda de produtos e serviços para empresas e governos. As previsões são indutoras da aquisição de determinadas tecnologias que passam a ser consideradas inevitáveis, extremamente necessárias. Os gastos globais com a Inteligência Artificial Generativa, em 2024, foram de US$ 5,7 bilhões. A consultoria Gartner espera que ele atinja US$ 14,2 bilhões em 2025[ii].

A aposta dos oráculos da tecnologia é que os modelos específicos de Inteligência Artificial Generativa irão crescer muito mais. O chat GPT é um grande modelo de linguagem de uso geral. Mas, existem os Modelos de Linguagem Específicos de Domínio (DSLMs ou Domain-Specific Language Models) que são projetados e treinados com a linguagem, a lógica operacional, os jargões específicos de cada segmento ou setor do mercado.

Esses modelos específicos geraram um faturamento de aproximadamente US$ 302 milhões em 2024. A consultoria Gartner prevê que alcancem vendas de US$ 1,1 bilhão em 2025. Se isso ocorrer, o crescimento em um único ano será de 279,2%.[iii]

As Áreas de Saúde, Jurídica, Logística, Finanças e diversos ambientes corporativos estão avançando no uso dos Modelos de Linguagem Específicos de Domínio. Em geral, eles trazem a legislação do setor, são focados em detalhes regulatórios e técnicos, possuem uma base de dados que permite recurar trechos precisos de normativas e operações exclusivas de cada setor. Os consultores de tecnologia afirmam que em 2027 os Modelos de Linguagem Específicos de Domínio superarão os modelos de linguagem mais genéricos, como o GPT.

Um exemplo de um Modelo de Linguagem Específico de Domínio na área de Saúde é o Amazon HealthScribe que foi desenvolvido e é de propriedade da Amazon Web Services (AWS). Suas principais funções são de transcrição automática da conversa entre o médico e o paciente, a produção de resumos clínicos e a prescrições de medicamentos, diagnósticos e exames. É vendido para se integrar aos sistemas hospitalares que são convidados a colocar seus dados no HealthLake da nuvem da Amazon Web Server. Isso mesmo, um lago de saúde na nuvem. O marketing é cada vez mais ousado e suas nomenclaturas são dignas de filmes da Marvel.

Mais inteligência artificial, mais dependência

O AWS HealthLake é uma infraestrutura de armazenamento de dados estruturados, semiestruturados e não estruturados, especificamente voltados para a para a saúde que permite indexá-los, transformá-los e tratá-los de modo compatível com padrões internacionais de saúde, como o HL7 FHIR (Fast Healthcare Interoperability Resources).

Para usá-lo as instituições pagam para ter acesso as suas interfaces de programação que permitem adequar o serviço ao sistema hospitalar existente. Com isso, o cliente ao mesmo tempo que usa o data lake melhora os sistemas de Inteligência Artificial da Amazon ao agregar mais dados à nuvem da empresa de Bezos.

Mas não é somente a Amazon que se preparou para o mercado de Modelo de Linguagem Específico de Domínio para a Saúde. Temos serviços similares como Google Med-PaLM 2, o nference CLM que realiza a integração dos prontuários e biofarmacêuticas e a Azure BioGPT + Health Bot. A IBM está reestruturando o seu IBM Watson Health para se tornar mais competitivo. Com isso, a Saúde se consolida como uma grande área de extrativismo de dados e de grandes ganhos. Não é por menos que as Big Techs estão competindo ferozmente pela liderança neste segmento.

No mundo jurídico, os Modelos de Linguagem Específicos de Domínio são numerosos. A plataforma Harvey foi desenvolvida pela startup de mesmo nome em parceria coma OpenAI. Em geral, esses Modelos Específicos utilizam os Grandes Modelos de Linguagem para sobre eles agregar os conteúdos e regras específicas.

Não é um exagero afirmar que os modelos específicos, em geral, integram os grandes modelos sob o controle de uma Big Tech com grande poder computacional. A Harvey, treinada com o GPT-4, elabora contratos, petições, analisa legislações, cláusulas contratuais, pesquisa jurisprudência com base nas leis norte-americanas. Grandes escritórios como o Allen & Overy utilizam sua plataforma.

Existem centenas de outros Modelos de Linguagem Específicos de Domínio para o mundo jurídico, tais como, a Lexion AI que gerencia contratos, a Spellbook que elabora textos jurídicos, a Lexis+ AI e a Blue J Legal que realiza análise preditiva com base na jurisprudência, entre outras. Na realidade, a esmagadora maioria desses modelos específicos, os chamados DSLMs, integra, deriva ou depende dos grandes modelos de linguagem (LLMs) controlados por Big Techs como Google, Microsoft em parceria com a OpenAI, Amazon ou Meta. Eles integram o ecossistema das Big Techs.

Neste sentido, quanto mais as empresas e governos no Brasil utilizarem Modelos de Linguagem Específicos de Domínio, mais ampliaremos a remessa de recursos da nossa sociedade para o exterior, mesmo quando a startup for brasileira, uma vez que ela deverá treinar seu modelo específico em um grande modelo de uma Big Tech.

Além disso, mesmo que queira desenvolver do zero seu modelo específico de linguagem, recorrerá a um provedor de nuvem para treinar o seu modelo e posteriormente para hospedá-lo. Nessas hipóteses, quanto mais utilizarmos a IA mais aumentaremos nossa dependência tecnoeconômica e mais dados enviaremos de nossa sociedade para o aprimoramento dos grandes modelos desenvolvidos e mantidos pelas Big Techs.

Existe saída

O plano de Inteligência Artificial do governo brasileiro fala corretamente em alocar recursos em infraestruturas de Inteligência Artificial. Aponta inclusive alguns projetos científicos fundamentais, principalmente da física e da computação. Ocorre que precisamos de Data Centers federados para manter os dados das nossas universidades no país. Até os e-mails, listas de discussão e repositórios de pesquisa foram entregues para as Big Techs.

O MEC não tem isso como prioridade e continua a entregar os dados do Enem para hospedá-los em uma Big Tech. Se uma universidade brasileira recebe um recurso para realizar um projeto de Inteligência Artificial, aproximadamente metade dele irá cair nas mãos de um provedor de nuvem de uma Big Tech, uma vez que não temos estrutura computacional disponível no Brasil para treinar e realizar inferências dos nossos projetos.

Desse modo, o plano precisa de um ajuste. Precisamos com urgência construirmos Data Centers federados de baixo impacto ambiental que possam servir cada um deles a diversas universidades. Eles devem ser públicos e estar sob o controle de nossos pesquisadores. O grande inimigo aqui é o neoliberalismo que manda entregar tudo para o setor privado. O problema do nosso desenvolvimento no mundo informacional é pior do que tivermos no mundo industrial.

Se naquele período não tínhamos estruturas tecnocientíficas robustas, tínhamos forças políticas capazes de enfrentar os agentes do imperialismo internos e construirmos a Companhia Siderúrgica Nacional, a Petrobras e, no início da informatização, o Serpro e as companhias públicas de processamento de dados. Atualmente, o neoliberalismo tornou-se um estilo e modo de gestão.

No cenário industrial, sem o Estado não teríamos industrialização. No contexto digital, sem o Estado não passaremos de meros compradores de produtos e serviços desenvolvidos com os dados extraídos de nossa população pelas Big Techs que os utiliza para produzi-los.

Podemos abrir linhas de apoio a projetos de data centers comunitários para que os produtores de cultura, os movimentos populares e os sindicatos possam hospedar seus dados e realizar parcerias para desenvolver Modelos de Linguagem Específicos de Domínio que estejam sob nosso controle e que gerem recursos que fique em nosso país.

Precisamos que a Finep abra editais para data centers de baixo impacto ambiental de capital nacional (seria ainda um palavrão essa expressão?) que possam escalar a partir da formação de redes de integração. Precisamos também de projetos ousados. Temos que colocar nossa criatividade e inventividade à serviço do futuro. O momento é de sair da dependência das Big Techs e das chantagens de Donald Trump.

*Sergio Amadeu da Silveira é professor da Universidade Federal do ABC. Autor, entre outros livros, de Colonialismo de dados: como opera a trincheira algorítmica na guerra neoliberal (Autonomia Literária). [https://amzn.to/3ZZjDfb]

Notas

[i] Fonte: Banco Central do Brasil – Balanço de Pagamentos.

[ii] Fonte: https://nationalcioreview.com/articles-insights/extra-bytes/gartner-forecasts-148-year-over-year-growth-in-genai-spend/

[iii] Idem.

Anterior
Anterior

Enfrentamento à mudança do clima é dever de todos os países, decide Corte da ONU

Próximo
Próximo

Friederike Otto: A indústria fóssil tem um lobby, os que trabalham e morrem no sol, não