Como a China consegue avançar na construção de IA mesmo sem acesso aos chips poderosos?

Como a China consegue avançar na construção de IA mesmo sem acesso aos chips poderosos?

Tem gente que chama a empreitada da IA de nova corrida espacial e por isso uma referência histórica no Vale do Silício, Marc Andreessen, apelidou o que aconteceu nesta segunda-feira, 27, de: “O momento Sputnik da inteligência artificial”. A empolgação veio depois que a startup chinesa DeepSeek lançou, na semana passada, um modelo de inteligência artificial (IA) que usa menos dados e custa uma fração do valor dos concorrentes – e que fez empresas fabricantes de chips, como a Nvidia, terem suas ações em queda de mais de 10% na bolsa americana.

Num artigo, a empresa por trás do DeepSeek mostrou que o poder dessa IA usa apenas uma fração dos chips de computador do que as gigantes dos Estados Unidos precisam para treinar seus sistemas. Em suma, fazem mais com menos recursos.

A DeepSeek lançou, na semana passada, um modelo de inteligência artificial (IA) que usa menos dados e custa uma fração do valor dos concorrentes *Foto: Greg Baker/GREG BAKER*

O mercado reagiu à novidade quando viu o primeiro lugar na lista de aplicativos com mais downloads na loja da Apple nesta segunda-feira. A DeepSeek estava à frente do ChatGPT. Consequência? As ações da fabricante de chips Nvidia operaram em queda de 11% no mercado americano, ao mesmo tempo a Microsoft e Meta recuavam 3,3% cada.

Mas a notícia de uma nova concorrente no desenvolvimento de modelos de inteligência artificial generativa não devia assustar. Principalmente quando se trata de uma empresa com sede na China e que anuncia uma plataforma mais barata. Isso já aconteceu quando a Alibaba Cloud, empresa “irmã” do AliExpress, apresentou a versão mais poderosa de sua IA, o Qwen 2.5.

Como a China desenvolve esses modelos “econômicos”?

Boa parte dessa economia se deve ao uso de dados de alta qualidade, ou seja: as informações que a DeepSeek coloca no seu modelo já passou por um filtro que descartou dados irrelevantes, explica Rodrigo Nogueira, fundador da startup Maritaca IA.

“A arquitetura do DeepSeek é o que a gente chama de ‘mixture of expertes’ (mistura de especialistas). Essa arquitetura tem um custo-benefício melhor do que o que treina a Llama, por exemplo”, diz Nogueira.

Além da filtragem, o uso de dados sintéticos – aqueles feitos pelo próprio modelo de IA – são capazes de preencher lacunas de aprendizagem, o que dá mais eficiência na realização de tarefas complexas. Outro fator que impulsiona a capacidade e, principalmente, diminuem custos dos modelos chineses é a maneira com que ele é construído.

Em suma, a mixture of experts funciona como uma rede neural, que determina componentes específicos para realizar cada uma das tarefas, enquanto os outros estão desativados. “Por causa disso você consegue treinar de uma maneira mais eficiente esses modelos”, aponta Nogueira.

Portanto, os modelos chineses são mais especializados do que os americanos, como o ChatGPT, o Gemini, do Google, ou mesmo o Llama, da Meta, que também tem código aberto. “Hoje, [todas as empresas dos EUA] estão nessa linha de fazer coisas genéricas, de propósito único, um monobloco”, diz o fundador da Maritaca AI. “O futuro deve ser de modelos cada vez mais especializados”.

Pessoas refletidas em uma janela com um slogan sobre IA em um estande de uma empresa antes do Fórum Econômico Mundial em Davos, Suíça. Enquanto isso, chineses e americanos disputam a vanguarda tecnológica da IA. *Foto: Markus Schreiber/AP*

No caso da especialização, quem tende a se beneficiar dela são profissionais ou empresa com uso específico porque o modelo funcionará como um especialista naquele assunto, e dessa forma conter mais informações dedicadas. “Do lado médico ou lado jurídico por exemplo, acho que a gente vai demorar mais, porque as coisas são um pouco mais complicadas nessas áreas, não dá para você dar tão rapidamente ali se a resposta tá correta ou não, precisa de mais confirmação”, afirma Nogueira.

No centro de uma disputa geopolítica, as empresas e desenvolvedores de IA veem de um lado os Estados Unidos tentando limitar o número de chips poderoso, como os da Nvidia, fornecidos para a China e, do outro, a própria China sendo forçada a desenvolver ferramentas baseadas no que já está disponível sem custo na internet.

Por isso, o avanço desses modelos chineses deve sua tecnologia, ao menos em parte, aos americanos. “Talvez seja o caso de que esses modelos não seriam possíveis sem os modelos ocidentais, os americanos”, diz Pedro Burgos, consultor em inteligência artificial. “As coisas não acontecem no vácuo. Tantos os chineses quanto os americanos acabam bebendo uns dos outros das inovações que eles encontram”.

Mas uma diferença fundamental nos LLMs de cada país é o tamanho que eles ocupam. Tanto o Qwen quanto o DeepSeek conseguem rodar localmente, ou seja: uma vez instalados no aparelho, não precisam de servidor ou internet para funcionarem. Isso tem potencial de transformar celulares em máquinas movidas a IA.

“Por que a Siri, assistente virtual da Apple, ainda não recebeu o banho de loja e não ficou superinteligente? Porque é muito caro rodar um modelo muito inteligente”, explica Burgos.

Enquanto as ações de gigantes da tecnologia caiam, as da Apple subiam. Para Burgos, o motivo é a aposta no futuro que a empresa de Tim Cook pode construir a partir dos modelos que estão sendo revelados pela China. “O lançamento dos chineses mostrou que é possível rodar um modelo muito inteligente na sua própria máquina. Em algum momento no futuro próximo, a Apple vai usar coisas como esse modelo para rodar dentro do chip dela e fazer seu produto com IA”.

A possibilidade de rodar IA em dispositivos menores, como smartphones e até eletrodomésticos vai mudar o mercado, em especial quando o custo for ainda mais reduzido. “Não vai precisar ter aqueles data centers gigantescos da Nvidia para rodar [modelos de IA]”, explica Burgos. “Vai ser útil para a LG, por exemplo, quando ela quiser fazer uma geladeira que sugere receitas com IA baseadas no que tem lá dentro”, diz. “Era um negócio de ficção cientifica, mas subitamente vai ser possível”.

Um projeto ameaçado?

No primeiro dia completo no cargo, Donald Trump anunciou – ao lado do CEO da OpenAI, Sam Altman, e do fundador da Oracle, Larry Ellison – investimento de US$ 500 bilhões para uma infraestrutura nacional de IA, chamado de Stargate.

A ideia do republicano é juntar, além das empresas de Altman e Ellison, o parceiro de investimentos MGX, com sede em Abu Dhabi, a Arm, a Microsoft, e a Nvidia para financiar a empreitada. “Não é à toa que isso é tão comparado com a corrida espacial”, diz Burgos. “É relevante para os EUA chegar à tecnologia da IA AGI, aquela superinteligente, antes que qualquer outro país”.

Ao lado do CEO da OpenAI, Sam Altman, e do fundador da Oracle, Larry Ellison e do CEO do SoftBank Masayoshi Son, Trump anunciou investimento de US$ 500 bilhões para uma infraestrutura nacional de IA, chamado de Stargate *Foto: Jabin Botsford/The Washington Post*

Mas, se compararmos os custos dos modelos chineses e americanos, há desvantagem para o lado dos EUA? “É muito difícil dizer se os US$ 500 bilhões é muito ou pouco, porque não sabemos ainda todos os usos que essa tecnologia terá”, explica Burgos.

Quanto ao investimento da DeepSeek, há uma casca de banana no valor que foi anunciado. “Não é que esse dado de que foi US$ 5,5 milhões seja totalmente verdadeiro. Ele esconde custos de pesquisa e desenvolvimento e outras despesas que não são contabilizadas no treinamento”, afirma Burgos.

Sobre as especificidades da DeepSeek, um relatório da consultoria financeira Wedbush diz que o modelo feito em código aberto que faz essa computação de tempo de inferência é muito impressionante, especialmente porque o DeepSeek teve que navegar por restrições rígidas de chip dos EUA, incluindo os H100s da Nvidia. A inferência refere-se ao processo de usar um modelo de inteligência artificial já treinado para gerar previsões ou análises a partir de novos dados.

“Embora o modelo seja impressionante e tenha um impacto cascata, a realidade é que a tecnologia dos EUA estão focadas no jogo final da AGI com toda a infraestrutura e ecossistema que a China e, especialmente, a DeepSeek não conseguem chegar perto, em nossa opinião”, afirma a Wedbush.

Por Estadão

Como a China consegue avançar na construção de IA mesmo sem acesso aos chips poderosos?

Como a China desenvolve esses modelos “econômicos”?

Caça a imigrantes e voos com algemados são sintoma de uma relação conflituosa de Trump com o Brasil

Mercado de R$ 9 tri em títulos adota força-tarefa para ajuste antifraude

Você pode interessar!