INTELLECT-2: Een redeneermodel getraind via wereldwijd gedecentraliseerde reinforcement learning
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
May 12, 2025
Auteurs: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI
Samenvatting
We introduceren INTELLECT-2, de eerste wereldwijd gedistribueerde reinforcement learning (RL) training van een taalmodel met 32 miljard parameters. In tegenstelling tot traditionele gecentraliseerde trainingsinspanningen, traint INTELLECT-2 een redeneermodel met volledig asynchrone RL over een dynamische, heterogene zwerm van rekenkrachtbijdragers zonder toestemming.
Om een training met deze unieke infrastructuur mogelijk te maken, hebben we verschillende componenten vanaf nul opgebouwd: we introduceren PRIME-RL, ons trainingsframework dat speciaal is ontworpen voor gedistribueerde asynchrone reinforcement learning, gebaseerd op nieuwe componenten zoals TOPLOC, dat rollouts van niet-vertrouwde inferentiewerkers verifieert, en SHARDCAST, dat efficiënt beleidsgewichten uitzendt van trainingsnodes naar inferentiewerkers.
Naast infrastructuurcomponenten stellen we aanpassingen voor aan het standaard GRPO-trainingsrecept en gegevensfiltertechnieken die cruciaal waren om trainingsstabiliteit te bereiken en ervoor te zorgen dat ons model zijn trainingsdoel succesvol leerde, waardoor het QwQ-32B, het state-of-the-art redeneermodel in het 32B-parameterbereik, verbeterde.
We maken INTELLECT-2 open source, samen met al onze code en gegevens, in de hoop meer open onderzoek op het gebied van gedecentraliseerde training aan te moedigen en mogelijk te maken.
English
We introduce INTELLECT-2, the first globally distributed reinforcement
learning (RL) training run of a 32 billion parameter language model. Unlike
traditional centralized training efforts, INTELLECT-2 trains a reasoning model
using fully asynchronous RL across a dynamic, heterogeneous swarm of
permissionless compute contributors.
To enable a training run with this unique infrastructure, we built various
components from scratch: we introduce PRIME-RL, our training framework
purpose-built for distributed asynchronous reinforcement learning, based on top
of novel components such as TOPLOC, which verifies rollouts from untrusted
inference workers, and SHARDCAST, which efficiently broadcasts policy weights
from training nodes to inference workers.
Beyond infrastructure components, we propose modifications to the standard
GRPO training recipe and data filtering techniques that were crucial to achieve
training stability and ensure that our model successfully learned its training
objective, thus improving upon QwQ-32B, the state of the art reasoning model in
the 32B parameter range.
We open-source INTELLECT-2 along with all of our code and data, hoping to
encourage and enable more open research in the field of decentralized training.Summary
AI-Generated Summary