ChatPaper.aiChatPaper

INTELLECT-2: Ein auf global dezentralisiertem Reinforcement Learning trainiertes Modell für logisches Denken

INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025
Autoren: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI

Zusammenfassung

Wir stellen INTELLECT-2 vor, den ersten global verteilten Reinforcement-Learning (RL)-Trainingslauf eines Sprachmodells mit 32 Milliarden Parametern. Im Gegensatz zu traditionellen zentralisierten Trainingsansätzen trainiert INTELLECT-2 ein Modell für logisches Denken mithilfe von vollständig asynchronem RL über einen dynamischen, heterogenen Schwarm von berechtigungsfreien Rechenbeitragenden. Um einen Trainingslauf mit dieser einzigartigen Infrastruktur zu ermöglichen, haben wir verschiedene Komponenten von Grund auf neu entwickelt: Wir präsentieren PRIME-RL, unser speziell für verteiltes asynchrones Reinforcement Learning entwickeltes Trainingsframework, das auf neuartigen Komponenten wie TOPLOC basiert, das Rollouts von nicht vertrauenswürdigen Inferenzarbeitern verifiziert, und SHARDCAST, das effizient Policy-Gewichte von Trainingsknoten an Inferenzarbeiter überträgt. Neben Infrastrukturkomponenten schlagen wir Anpassungen an der standardmäßigen GRPO-Trainingsmethode und Datenfiltertechniken vor, die entscheidend waren, um Trainingsstabilität zu erreichen und sicherzustellen, dass unser Modell sein Trainingsziel erfolgreich erlernte, wodurch es QwQ-32B, das bisher führende Modell für logisches Denken im Bereich von 32 Milliarden Parametern, übertraf. Wir veröffentlichen INTELLECT-2 zusammen mit unserem gesamten Code und unseren Daten als Open Source, in der Hoffnung, offene Forschung im Bereich des dezentralen Trainings zu fördern und zu ermöglichen.
English
We introduce INTELLECT-2, the first globally distributed reinforcement learning (RL) training run of a 32 billion parameter language model. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors. To enable a training run with this unique infrastructure, we built various components from scratch: we introduce PRIME-RL, our training framework purpose-built for distributed asynchronous reinforcement learning, based on top of novel components such as TOPLOC, which verifies rollouts from untrusted inference workers, and SHARDCAST, which efficiently broadcasts policy weights from training nodes to inference workers. Beyond infrastructure components, we propose modifications to the standard GRPO training recipe and data filtering techniques that were crucial to achieve training stability and ensure that our model successfully learned its training objective, thus improving upon QwQ-32B, the state of the art reasoning model in the 32B parameter range. We open-source INTELLECT-2 along with all of our code and data, hoping to encourage and enable more open research in the field of decentralized training.

Summary

AI-Generated Summary

PDF102May 13, 2025