Совместное использование — это забота: эффективное посттренировочное обучение языковых моделей с коллективным обменом опытом в обучении с подкреплением
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
September 10, 2025
Авторы: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI
Аннотация
Обучение языковых моделей (LM) с подкреплением (RL) после предварительного обучения может улучшить их способности к сложным рассуждениям без необходимости контролируемого тонкого настройки, как продемонстрировала модель DeepSeek-R1-Zero. Однако эффективное использование RL для LM требует значительной параллелизации для масштабирования вывода, что влечет за собой нетривиальные технические проблемы (например, задержки, память и надежность) наряду с постоянно растущими финансовыми затратами. Мы представляем Swarm sAmpling Policy Optimization (SAPO) — полностью децентрализованный и асинхронный алгоритм постобучения с подкреплением. SAPO разработан для децентрализованных сетей из разнородных вычислительных узлов, где каждый узел управляет своей собственной моделью политики, одновременно "делясь" траекториями с другими узлами в сети; при этом не требуется явных предположений о задержках, однородности моделей или оборудовании, и узлы могут работать изолированно, если это необходимо. В результате алгоритм избегает типичных узких мест при масштабировании постобучения с подкреплением, одновременно открывая (и даже поощряя) новые возможности. Благодаря выборке траекторий, "разделяемых" в сети, он позволяет распространять "моменты озарения", тем самым ускоряя процесс обучения. В данной статье мы показываем, что SAPO достиг прироста совокупного вознаграждения до 94% в контролируемых экспериментах. Мы также делимся выводами из тестов на сети из тысяч узлов, предоставленных участниками сообщества Gensyn, которые запускали алгоритм на разнообразном оборудовании и моделях в ходе демонстрации с открытым исходным кодом.
English
Post-training language models (LMs) with reinforcement learning (RL) can
enhance their complex reasoning capabilities without supervised fine-tuning, as
demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs
requires significant parallelization to scale-up inference, which introduces
non-trivial technical challenges (e.g. latency, memory, and reliability)
alongside ever-growing financial costs. We present Swarm sAmpling Policy
Optimization (SAPO), a fully decentralized and asynchronous RL post-training
algorithm. SAPO is designed for decentralized networks of heterogenous compute
nodes, where each node manages its own policy model(s) while "sharing" rollouts
with others in the network; no explicit assumptions about latency, model
homogeneity, or hardware are required and nodes can operate in silo if desired.
As a result, the algorithm avoids common bottlenecks in scaling RL
post-training while also allowing (and even encouraging) new possibilities. By
sampling rollouts "shared" across the network, it enables "Aha moments" to
propagate, thereby bootstrapping the learning process. In this paper we show
SAPO achieved cumulative reward gains of up to 94% in controlled experiments.
We also share insights from tests on a network with thousands of nodes
contributed by Gensyn community members running the algorithm on diverse
hardware and models during an open-source demo.