INTELLECT-2: Um Modelo de Raciocínio Treinado por Aprendizado por Reforço Globalmente Descentralizado
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
May 12, 2025
Autores: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI
Resumo
Apresentamos o INTELLECT-2, o primeiro treinamento globalmente distribuído de aprendizado por reforço (RL) para um modelo de linguagem com 32 bilhões de parâmetros. Diferente dos esforços tradicionais de treinamento centralizado, o INTELLECT-2 treina um modelo de raciocínio utilizando RL totalmente assíncrono em um enxame dinâmico e heterogêneo de contribuidores de computação sem necessidade de permissão.
Para viabilizar um treinamento com essa infraestrutura única, desenvolvemos diversos componentes do zero: introduzimos o PRIME-RL, nosso framework de treinamento projetado especificamente para aprendizado por reforço distribuído e assíncrono, baseado em componentes inovadores como o TOPLOC, que verifica rollouts de workers de inferência não confiáveis, e o SHARDCAST, que transmite eficientemente os pesos da política dos nós de treinamento para os workers de inferência.
Além dos componentes de infraestrutura, propomos modificações na receita padrão de treinamento GRPO e técnicas de filtragem de dados que foram cruciais para garantir a estabilidade do treinamento e assegurar que nosso modelo aprendesse com sucesso seu objetivo, superando assim o QwQ-32B, o modelo de raciocínio state of the art na faixa de 32 bilhões de parâmetros.
Disponibilizamos o INTELLECT-2 como código aberto, juntamente com todo o nosso código e dados, com o objetivo de incentivar e possibilitar mais pesquisas abertas no campo de treinamento descentralizado.
English
We introduce INTELLECT-2, the first globally distributed reinforcement
learning (RL) training run of a 32 billion parameter language model. Unlike
traditional centralized training efforts, INTELLECT-2 trains a reasoning model
using fully asynchronous RL across a dynamic, heterogeneous swarm of
permissionless compute contributors.
To enable a training run with this unique infrastructure, we built various
components from scratch: we introduce PRIME-RL, our training framework
purpose-built for distributed asynchronous reinforcement learning, based on top
of novel components such as TOPLOC, which verifies rollouts from untrusted
inference workers, and SHARDCAST, which efficiently broadcasts policy weights
from training nodes to inference workers.
Beyond infrastructure components, we propose modifications to the standard
GRPO training recipe and data filtering techniques that were crucial to achieve
training stability and ensure that our model successfully learned its training
objective, thus improving upon QwQ-32B, the state of the art reasoning model in
the 32B parameter range.
We open-source INTELLECT-2 along with all of our code and data, hoping to
encourage and enable more open research in the field of decentralized training.