ChatPaper.aiChatPaper

INTELLECT-2: Un Modello di Ragionamento Addestrato Tramite Apprendimento per Rinforzo Decentralizzato a Livello Globale

INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025
Autori: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI

Abstract

Presentiamo INTELLECT-2, il primo addestramento globale distribuito di un modello linguistico da 32 miliardi di parametri basato su apprendimento per rinforzo (RL). A differenza dei tradizionali sforzi di addestramento centralizzati, INTELLECT-2 allena un modello di ragionamento utilizzando un RL completamente asincrono attraverso uno sciame dinamico ed eterogeneo di contributori di calcolo senza autorizzazione. Per abilitare un ciclo di addestramento con questa infrastruttura unica, abbiamo costruito da zero vari componenti: introduciamo PRIME-RL, il nostro framework di addestramento progettato specificamente per l'apprendimento per rinforzo asincrono distribuito, basato su componenti innovativi come TOPLOC, che verifica le sequenze di azioni provenienti da lavoratori di inferenza non attendibili, e SHARDCAST, che trasmette in modo efficiente i pesi delle politiche dai nodi di addestramento ai lavoratori di inferenza. Oltre ai componenti infrastrutturali, proponiamo modifiche alla ricetta standard di addestramento GRPO e tecniche di filtraggio dei dati che sono state cruciali per raggiungere la stabilità dell'addestramento e garantire che il nostro modello apprendesse con successo il suo obiettivo di addestramento, migliorando così QwQ-32B, il modello di ragionamento all'avanguardia nella gamma dei 32 miliardi di parametri. Rendiamo open-source INTELLECT-2 insieme a tutto il nostro codice e dati, con la speranza di incoraggiare e abilitare ulteriori ricerche aperte nel campo dell'addestramento decentralizzato.
English
We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors. To enable a training run with this unique infrastructure, we built various components from scratch: we introduce PRIME-RL, our training framework purpose-built for distributed asynchronous reinforcement learning, based on top of novel components such as TOPLOC, which verifies rollouts from untrusted inference workers, and SHARDCAST, which efficiently broadcasts policy weights from training nodes to inference workers. Beyond infrastructure components, we propose modifications to the standard GRPO training recipe and data filtering techniques that were crucial to achieve training stability and ensure that our model successfully learned its training objective, thus improving upon QwQ-32B, the state of the art reasoning model in the 32B parameter range. We open-source INTELLECT-2 along with all of our code and data, hoping to encourage and enable more open research in the field of decentralized training.
PDF142May 13, 2025