Brasileiro que teve seu visto negado para entrar nos Estados Unidos, onde daria uma palestra na Universidade de Harvard

Rodrigo Nogueira, um dos principais nomes da inteligência artificial (IA) do Brasil, se tornou uma referência no País após anos de pesquisa em grandes modelos de linguagem (LLM) e desenvolvimento e ajustes de IAs focadas no português brasileiro. Com doutorado pela Universidade de Nova York, Nogueira teve seu visto negado para entrar nos Estados Unidos, onde daria uma palestra na Universidade Harvard, e acredita que foi barrado devido à sua área de atuação, que se tornou um campo de disputa global entre as principais potências do mundo.

Para a reportagem do Estadão, a embaixada americana no Brasil e o consulado dos EUA em São Paulo decidiram não comentar o caso. “Por política do governo dos Estados Unidos, não comentamos sobre casos individuais de visto”, diz a nota enviada à reportagem pela assessoria de imprensa da embaixada e consulados dos Estados Unidos no Brasil.

Nascido em Itapira, SP, Rodrigo Nogueira, hoje com 38 anos, se formou em engenharia elétrica e eletrônica pela Universidade Estadual de Campinas (Unicamp), com mestrado em engenharia da computação pela mesma universidade. Em 2014, o pesquisador iniciou o doutorado na Universidade de Nova York (NYU), ainda com foco em engenharia da computação — ele atuava no laboratório de Yann LeCun, ganhador do Prêmio Turing (o “Nobel da computação”) em 2018 e principal cientista em IA da Meta.

Durante o período de 2014 a 2019, Nogueira teve como orientador Kyunghyun Cho, um dos criadores do “mecanismo de atenção”, um dos pilares para a criação do Transformer, arquitetura revolucionária da IA que deu origem ao ChatGPT, da OpenAI. Nessa época, o brasileiro criou o Bertinbal, um modelo de IA focado em português e criado sobre o BERT, grande modelo de linguagem do Google que foi padrão na indústria durante muitos anos.

O pesquisador disponibilizou publicamente o Bertinbau, baixado 10 milhões de vezes na plataforma HuggingFace.

Nogueira passou a experimentar com treinamento especializado de IAs ainda em 2020, quando voltou do doutorado nos EUA. Dois anos depois, ele conheceu o GPT 3.5, primeiro “cérebro” do ChatGPT, nove meses antes de a ferramenta da OpenAI se tornar pública. Nesse momento, ele viu a materialização de uma crença: textos produzidos por IA seriam o futuro – e ele só precisava garantir modelos fluentes em nosso idioma. Usando um crédito de US$ 1 milhão do Google para serviços em nuvem, ele passou a aprimorar com os chips especializados da gigante (chamados de TPUs) o Llama 1, um modelo de código aberto disponibilizado pela Meta.

O resultado foi o Sabiá, um modelo especializado em português com 65 bilhões de parâmetros, representações matemáticas de conexões entre palavras. Colocado em diferentes provas comparativas com outras IAs, o Sabiá teve performance inferior apenas ao GPT-4, que, estima-se, tem 1,76 trilhão de parâmetros (o número não é confirmado) e investimento maciço da OpenAI – na época, o Sabiá, por exemplo, conseguiu “cantar” mais alto que o GPT 3.5 em provas de vestibular da Fuvest e da Unicamp.

Hoje o Sabiá já se encontra em sua terceira geração, o Sabiá 3, e também tem modelos menores e ajustados a diferentes necessidades, como fazem OpenAI, Google e Anthropic com seus respectivos modelos, GPT, Gemini e Claude. O MariTalk, o chatbot que roda o Sabiá (como o ChatGPT faz com o GPT) também já consegue realizar buscas na web, como fazem os concorrentes americanos.

“A gente sempre treina os nossos modelos a partir de algum grande modelo já existente, pois o treinamento inicial é muito caro. O segredo para a especialização em português é ter uma boa curadoria de dados”, explica ele.

Fundada em Campinas (SP) em outubro de 2022, a Maritaca acredita no treinamento para idiomas específicos de grandes modelos de linguagem (LLM), uma abordagem diferente da OpenAI, que cria seus modelos de forma mais generalista, com material disponibilizado na internet. A ideia é tornar acessíveis esses modelos para aplicações comerciais por meio de APIs.

Atualmente, a Maritaca é sustentada pelo aporte de investidores e pelo próprio faturamento. A startup possui 10 funcionários, a maior parte ligada à Unicamp e à USP – Nogueira também foi professor voluntário na Unicamp -, e tem mais de 100 clientes no Brasil, incluindo o JusBrasil, que lançou nesta quarta, 19, uma ferramenta com tecnologia da startup. Outros clientes não revelado por ele estão hospitais e bancos.

Atuação internacional

Além da atuação em IA, o pesquisador acredita que uma viagem para Taiwan em 2023 jogou contra a provação de seu visto para os EUA. Nogueira participa de congressos de tecnologia desde 2014 e já esteve em, pelo menos, 10 países diferentes para apresentar seu trabalho ou participar de discussões relacionadas à sua área de estudo. As informações são do portal Estadão.

Adicionar aos favoritos o Link permanente.