INTELLECT-2: Модель рассуждений, обученная с использованием глобально децентрализованного обучения с подкреплением
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning
May 12, 2025
Авторы: Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann
cs.AI
Аннотация
Мы представляем INTELLECT-2 — первый глобально распределенный процесс обучения с подкреплением (RL) языковой модели с 32 миллиардами параметров. В отличие от традиционных централизованных подходов к обучению, INTELLECT-2 обучает модель рассуждений с использованием полностью асинхронного RL в динамическом, гетерогенном рое вычислительных узлов, работающих без разрешений.
Для реализации обучения с такой уникальной инфраструктурой мы разработали с нуля различные компоненты: мы представляем PRIME-RL — нашу обучающую платформу, специально созданную для распределенного асинхронного обучения с подкреплением, основанную на новых компонентах, таких как TOPLOC, который проверяет результаты выполнения задач от ненадежных вычислительных узлов, и SHARDCAST, который эффективно распространяет веса политики от обучающих узлов к вычислительным.
Помимо инфраструктурных компонентов, мы предлагаем модификации стандартного рецепта обучения GRPO и методы фильтрации данных, которые были критически важны для обеспечения стабильности обучения и успешного усвоения моделью целевой задачи, что позволило превзойти QwQ-32B — передовую модель рассуждений в диапазоне 32 миллиардов параметров.
Мы открываем исходный код INTELLECT-2 вместе со всем нашим кодом и данными, надеясь стимулировать и поддержать более открытые исследования в области децентрализованного обучения.
English
We introduce INTELLECT-2, the first globally distributed reinforcement
learning (RL) training run of a 32 billion parameter language model. Unlike
traditional centralized training efforts, INTELLECT-2 trains a reasoning model
using fully asynchronous RL across a dynamic, heterogeneous swarm of
permissionless compute contributors.
To enable a training run with this unique infrastructure, we built various
components from scratch: we introduce PRIME-RL, our training framework
purpose-built for distributed asynchronous reinforcement learning, based on top
of novel components such as TOPLOC, which verifies rollouts from untrusted
inference workers, and SHARDCAST, which efficiently broadcasts policy weights
from training nodes to inference workers.
Beyond infrastructure components, we propose modifications to the standard
GRPO training recipe and data filtering techniques that were crucial to achieve
training stability and ensure that our model successfully learned its training
objective, thus improving upon QwQ-32B, the state of the art reasoning model in
the 32B parameter range.
We open-source INTELLECT-2 along with all of our code and data, hoping to
encourage and enable more open research in the field of decentralized training.Summary
AI-Generated Summary