ChatPaper.aiChatPaper

INTELLECT-2 : Un modèle de raisonnement entraîné par apprentissage par renforcement décentralisé à l'échelle mondiale

INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025
Auteurs: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI

Résumé

Nous présentons INTELLECT-2, la première exécution de formation par apprentissage par renforcement (RL) distribuée à l'échelle mondiale pour un modèle de langage de 32 milliards de paramètres. Contrairement aux efforts de formation centralisés traditionnels, INTELLECT-2 entraîne un modèle de raisonnement en utilisant un apprentissage par renforcement entièrement asynchrone à travers un essaim dynamique et hétérogène de contributeurs de calcul sans permission. Pour permettre une exécution de formation avec cette infrastructure unique, nous avons construit divers composants à partir de zéro : nous introduisons PRIME-RL, notre cadre de formation spécialement conçu pour l'apprentissage par renforcement asynchrone distribué, basé sur des composants novateurs tels que TOPLOC, qui vérifie les déploiements provenant de travailleurs d'inférence non fiables, et SHARDCAST, qui diffuse efficacement les poids de politique des nœuds de formation aux travailleurs d'inférence. Au-delà des composants d'infrastructure, nous proposons des modifications à la recette de formation GRPO standard et des techniques de filtrage des données qui ont été cruciales pour atteindre la stabilité de la formation et garantir que notre modèle a appris avec succès son objectif de formation, améliorant ainsi QwQ-32B, le modèle de raisonnement de pointe dans la gamme des 32 milliards de paramètres. Nous rendons INTELLECT-2 open-source ainsi que tout notre code et nos données, dans l'espoir d'encourager et de permettre davantage de recherches ouvertes dans le domaine de la formation décentralisée.
English
We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors. To enable a training run with this unique infrastructure, we built various components from scratch: we introduce PRIME-RL, our training framework purpose-built for distributed asynchronous reinforcement learning, based on top of novel components such as TOPLOC, which verifies rollouts from untrusted inference workers, and SHARDCAST, which efficiently broadcasts policy weights from training nodes to inference workers. Beyond infrastructure components, we propose modifications to the standard GRPO training recipe and data filtering techniques that were crucial to achieve training stability and ensure that our model successfully learned its training objective, thus improving upon QwQ-32B, the state of the art reasoning model in the 32B parameter range. We open-source INTELLECT-2 along with all of our code and data, hoping to encourage and enable more open research in the field of decentralized training.

Summary

AI-Generated Summary

PDF102May 13, 2025