INTELLECT-2: Un modelo de razonamiento entrenado mediante aprendizaje por refuerzo descentralizado globalmente
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
May 12, 2025
Autores: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI
Resumen
Presentamos INTELLECT-2, la primera ejecución de entrenamiento de aprendizaje por refuerzo (RL, por sus siglas en inglés) distribuida globalmente para un modelo de lenguaje de 32 mil millones de parámetros. A diferencia de los esfuerzos de entrenamiento centralizados tradicionales, INTELLECT-2 entrena un modelo de razonamiento utilizando RL completamente asíncrono a través de un enjambre dinámico y heterogéneo de contribuidores de cómputo sin permisos.
Para habilitar una ejecución de entrenamiento con esta infraestructura única, construimos varios componentes desde cero: presentamos PRIME-RL, nuestro marco de entrenamiento diseñado específicamente para el aprendizaje por refuerzo distribuido y asíncrono, basado en componentes novedosos como TOPLOC, que verifica las trayectorias de trabajadores de inferencia no confiables, y SHARDCAST, que transmite eficientemente los pesos de la política desde los nodos de entrenamiento a los trabajadores de inferencia.
Más allá de los componentes de infraestructura, proponemos modificaciones a la receta estándar de entrenamiento GRPO y técnicas de filtrado de datos que fueron cruciales para lograr la estabilidad del entrenamiento y asegurar que nuestro modelo aprendiera con éxito su objetivo de entrenamiento, mejorando así a QwQ-32B, el modelo de razonamiento más avanzado en el rango de 32 mil millones de parámetros.
Liberamos INTELLECT-2 junto con todo nuestro código y datos, con la esperanza de fomentar y facilitar una investigación más abierta en el campo del entrenamiento descentralizado.
English
We introduce INTELLECT-2, the first globally distributed reinforcement
learning (RL) training run of a 32 billion parameter language model. Unlike
traditional centralized training efforts, INTELLECT-2 trains a reasoning model
using fully asynchronous RL across a dynamic, heterogeneous swarm of
permissionless compute contributors.
To enable a training run with this unique infrastructure, we built various
components from scratch: we introduce PRIME-RL, our training framework
purpose-built for distributed asynchronous reinforcement learning, based on top
of novel components such as TOPLOC, which verifies rollouts from untrusted
inference workers, and SHARDCAST, which efficiently broadcasts policy weights
from training nodes to inference workers.
Beyond infrastructure components, we propose modifications to the standard
GRPO training recipe and data filtering techniques that were crucial to achieve
training stability and ensure that our model successfully learned its training
objective, thus improving upon QwQ-32B, the state of the art reasoning model in
the 32B parameter range.
We open-source INTELLECT-2 along with all of our code and data, hoping to
encourage and enable more open research in the field of decentralized training.Summary
AI-Generated Summary