Pesquisadores da Hugging Face buscam construir versão aberta do modelo de “Raciocínio” da DeepSeek

Tecnologia, Tendências de Mercado
28/01/2025
14:37
181

Apenas uma semana após o lançamento do modelo de IA de “raciocínio” R1 pela DeepSeek, que gerou um certo nervosismo nos mercados, pesquisadores da Hugging Face estão se lançando em uma missão para replicar o modelo do zero, em um projeto que chamaram de Open-R1. A iniciativa visa construir uma versão totalmente aberta do R1, tornando todos os componentes, incluindo os dados usados para treiná-lo, acessíveis ao público e de código aberto.

A Motivação por Trás do Open-R1

Leandro von Werra, chefe de pesquisa da Hugging Face, junto com sua equipe de engenheiros, explicaram que a decisão de criar o Open-R1 foi impulsionada pela filosofia da DeepSeek, que lançou o R1 com um modelo de “caixa preta”. Embora o R1 seja tecnicamente “aberto” no sentido de que possui uma licença permissiva que permite ampla implantação, ele não é realmente código aberto, pois muitos dos componentes usados para sua construção estão envoltos em sigilo. A DeepSeek, como muitas empresas de IA, optou por não divulgar detalhes cruciais de seu processo de treinamento e das ferramentas utilizadas.

Elie Bakouch, um dos engenheiros do projeto Open-R1, comentou ao TechCrunch: “O modelo R1 é impressionante, mas não há um conjunto de dados aberto, detalhes de experimentos ou modelos intermediários disponíveis, o que dificulta a replicação e a pesquisa futura. Tornar o R1 totalmente open-source, com toda a sua arquitetura, não é apenas uma questão de transparência, mas de desbloquear seu verdadeiro potencial.”

O Modelo R1 da DeepSeek

A DeepSeek, um laboratório de IA financiado por um fundo de hedge quantitativo, lançou o R1 recentemente, e o modelo rapidamente ganhou destaque. Em vários benchmarks, o R1 demonstrou desempenho equivalente, e até superior, ao modelo de raciocínio o1 da OpenAI. Como um modelo de raciocínio, o R1 se distingue por ser capaz de verificar informações, o que o torna mais confiável, especialmente em áreas como física, ciência e matemática. No entanto, esses modelos de raciocínio geralmente levam mais tempo para produzir respostas, tornando-se mais lentos que os modelos tradicionais, mas também mais precisos.

O R1 ganhou atenção popular quando o aplicativo chatbot da DeepSeek, que oferece acesso gratuito ao modelo, alcançou o topo da App Store da Apple. A velocidade com que a DeepSeek desenvolveu o modelo — lançando-o poucas semanas após a OpenAI lançar o o1 — gerou discussões sobre a capacidade dos EUA de manter sua liderança na corrida da IA.

Objetivo do Projeto Open-R1

O projeto Open-R1 tem como objetivo replicar o modelo R1 de forma aberta e acessível. Para isso, a equipe da Hugging Face vai contar com o Science Cluster da empresa, um servidor de pesquisa com 768 GPUs Nvidia H100. Os engenheiros irão utilizar esse poder computacional para gerar conjuntos de dados semelhantes aos usados pela DeepSeek no treinamento do R1.

Um dos principais desafios para a equipe é garantir que os algoritmos e receitas do modelo sejam implementados corretamente, e para isso, estão buscando a colaboração da comunidade de IA e de tecnologia, tanto no Hugging Face quanto no GitHub, onde o projeto Open-R1 está sendo hospedado. Em apenas três dias, o projeto no GitHub já havia acumulado 10.000 estrelas, uma indicação da popularidade e do interesse que gerou na comunidade.

Benefícios e Potenciais de Código Aberto

Se o projeto Open-R1 for bem-sucedido, Bakouch acredita que ele permitirá aos pesquisadores de IA construir em cima do modelo e criar novas versões ainda mais avançadas de modelos de raciocínio. O objetivo é criar um pipeline de treinamento sólido, baseado em código aberto, que beneficie a todos. Ele defende que o desenvolvimento de IA de código aberto não é um jogo de soma zero, mas sim uma situação onde todos ganham, incluindo laboratórios de ponta e fornecedores de modelos, uma vez que todos podem usar e inovar com as mesmas ferramentas.

Bakouch ainda observou que, embora haja preocupações com o uso indevido da IA aberta, os benefícios da abertura superam os riscos. Ele destacou: “Quando a receita do R1 for replicada, qualquer pessoa que tenha acesso a algumas GPUs poderá criar sua própria versão do modelo, o que difundirá a tecnologia ainda mais, tornando-a acessível globalmente.”

O Impacto do Código Aberto na IA

O projeto Open-R1 é mais um exemplo de como a abertura e a colaboração podem mudar o campo da IA. Para Bakouch, a crescente disponibilidade de modelos de IA de código aberto representa uma grande mudança para o setor, ajudando a descentralizar o desenvolvimento da IA. Isso rompe com a narrativa de que apenas um pequeno número de laboratórios é capaz de impulsionar grandes inovações, e coloca o poder da criação de modelos avançados nas mãos de uma comunidade maior.

Ao permitir que os dados, os algoritmos e os processos de treinamento sejam amplamente acessíveis, o Open-R1 não só oferece uma alternativa ao modelo fechado da DeepSeek, mas também abre caminho para futuras inovações, abordagens mais responsáveis e um entendimento mais profundo sobre como os modelos de raciocínio podem ser aplicados de maneira ética e eficaz.

Este movimento representa um passo significativo no campo da IA aberta e do raciocínio lógico, e se for bem-sucedido, poderá definir novos padrões para o futuro do desenvolvimento de inteligência artificial.

Sobre o Autor:
Redação Entre Fronteiras
Grupo de Brasileiros focados em auxiliar empreendedores nos Estados Unidos da América.

Compartilhe