INTELLECT-2: Un Modello di Ragionamento Addestrato Tramite Apprendimento per Rinforzo Decentralizzato a Livello Globale
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
May 12, 2025
Autori: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI
Abstract
Presentiamo INTELLECT-2, il primo addestramento globale distribuito di un modello linguistico da 32 miliardi di parametri basato su apprendimento per rinforzo (RL). A differenza dei tradizionali sforzi di addestramento centralizzati, INTELLECT-2 allena un modello di ragionamento utilizzando un RL completamente asincrono attraverso uno sciame dinamico ed eterogeneo di contributori di calcolo senza autorizzazione.
Per abilitare un ciclo di addestramento con questa infrastruttura unica, abbiamo costruito da zero vari componenti: introduciamo PRIME-RL, il nostro framework di addestramento progettato specificamente per l'apprendimento per rinforzo asincrono distribuito, basato su componenti innovativi come TOPLOC, che verifica le sequenze di azioni provenienti da lavoratori di inferenza non attendibili, e SHARDCAST, che trasmette in modo efficiente i pesi delle politiche dai nodi di addestramento ai lavoratori di inferenza.
Oltre ai componenti infrastrutturali, proponiamo modifiche alla ricetta standard di addestramento GRPO e tecniche di filtraggio dei dati che sono state cruciali per raggiungere la stabilità dell'addestramento e garantire che il nostro modello apprendesse con successo il suo obiettivo di addestramento, migliorando così QwQ-32B, il modello di ragionamento all'avanguardia nella gamma dei 32 miliardi di parametri.
Rendiamo open-source INTELLECT-2 insieme a tutto il nostro codice e dati, con la speranza di incoraggiare e abilitare ulteriori ricerche aperte nel campo dell'addestramento decentralizzato.
English
We introduce INTELLECT-2, the first globally distributed reinforcement
learning (RL) training run of a 32 billion parameter language model. Unlike
traditional centralized training efforts, INTELLECT-2 trains a reasoning model
using fully asynchronous RL across a dynamic, heterogeneous swarm of
permissionless compute contributors.
To enable a training run with this unique infrastructure, we built various
components from scratch: we introduce PRIME-RL, our training framework
purpose-built for distributed asynchronous reinforcement learning, based on top
of novel components such as TOPLOC, which verifies rollouts from untrusted
inference workers, and SHARDCAST, which efficiently broadcasts policy weights
from training nodes to inference workers.
Beyond infrastructure components, we propose modifications to the standard
GRPO training recipe and data filtering techniques that were crucial to achieve
training stability and ensure that our model successfully learned its training
objective, thus improving upon QwQ-32B, the state of the art reasoning model in
the 32B parameter range.
We open-source INTELLECT-2 along with all of our code and data, hoping to
encourage and enable more open research in the field of decentralized training.