INTELLECT-2: Een redeneermodel getraind via wereldwijd gedecentraliseerde reinforcement learning

Samenvatting

We introduceren INTELLECT-2, de eerste wereldwijd gedistribueerde reinforcement learning (RL) training van een taalmodel met 32 miljard parameters. In tegenstelling tot traditionele gecentraliseerde trainingsinspanningen, traint INTELLECT-2 een redeneermodel met volledig asynchrone RL over een dynamische, heterogene zwerm van rekenkrachtbijdragers zonder toestemming. Om een training met deze unieke infrastructuur mogelijk te maken, hebben we verschillende componenten vanaf nul opgebouwd: we introduceren PRIME-RL, ons trainingsframework dat speciaal is ontworpen voor gedistribueerde asynchrone reinforcement learning, gebaseerd op nieuwe componenten zoals TOPLOC, dat rollouts van niet-vertrouwde inferentiewerkers verifieert, en SHARDCAST, dat efficiënt beleidsgewichten uitzendt van trainingsnodes naar inferentiewerkers. Naast infrastructuurcomponenten stellen we aanpassingen voor aan het standaard GRPO-trainingsrecept en gegevensfiltertechnieken die cruciaal waren om trainingsstabiliteit te bereiken en ervoor te zorgen dat ons model zijn trainingsdoel succesvol leerde, waardoor het QwQ-32B, het state-of-the-art redeneermodel in het 32B-parameterbereik, verbeterde. We maken INTELLECT-2 open source, samen met al onze code en gegevens, in de hoop meer open onderzoek op het gebied van gedecentraliseerde training aan te moedigen en mogelijk te maken.

English

We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors. To enable a training run with this unique infrastructure, we built various components from scratch: we introduce PRIME-RL, our training framework purpose-built for distributed asynchronous reinforcement learning, based on top of novel components such as TOPLOC, which verifies rollouts from untrusted inference workers, and SHARDCAST, which efficiently broadcasts policy weights from training nodes to inference workers. Beyond infrastructure components, we propose modifications to the standard GRPO training recipe and data filtering techniques that were crucial to achieve training stability and ensure that our model successfully learned its training objective, thus improving upon QwQ-32B, the state of the art reasoning model in the 32B parameter range. We open-source INTELLECT-2 along with all of our code and data, hoping to encourage and enable more open research in the field of decentralized training.

INTELLECT-2: Een redeneermodel getraind via wereldwijd gedecentraliseerde reinforcement learning

INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

Samenvatting

Summary

Support

Support