Совместное использование — это забота: эффективное посттренировочное обучение языковых моделей с коллективным обменом опытом в обучении с подкреплением

Аннотация

Обучение языковых моделей (LM) с подкреплением (RL) после предварительного обучения может улучшить их способности к сложным рассуждениям без необходимости контролируемого тонкого настройки, как продемонстрировала модель DeepSeek-R1-Zero. Однако эффективное использование RL для LM требует значительной параллелизации для масштабирования вывода, что влечет за собой нетривиальные технические проблемы (например, задержки, память и надежность) наряду с постоянно растущими финансовыми затратами. Мы представляем Swarm sAmpling Policy Optimization (SAPO) — полностью децентрализованный и асинхронный алгоритм постобучения с подкреплением. SAPO разработан для децентрализованных сетей из разнородных вычислительных узлов, где каждый узел управляет своей собственной моделью политики, одновременно "делясь" траекториями с другими узлами в сети; при этом не требуется явных предположений о задержках, однородности моделей или оборудовании, и узлы могут работать изолированно, если это необходимо. В результате алгоритм избегает типичных узких мест при масштабировании постобучения с подкреплением, одновременно открывая (и даже поощряя) новые возможности. Благодаря выборке траекторий, "разделяемых" в сети, он позволяет распространять "моменты озарения", тем самым ускоряя процесс обучения. В данной статье мы показываем, что SAPO достиг прироста совокупного вознаграждения до 94% в контролируемых экспериментах. Мы также делимся выводами из тестов на сети из тысяч узлов, предоставленных участниками сообщества Gensyn, которые запускали алгоритм на разнообразном оборудовании и моделях в ходе демонстрации с открытым исходным кодом.

English

Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.

Совместное использование — это забота: эффективное посттренировочное обучение языковых моделей с коллективным обменом опытом в обучении с подкреплением

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Аннотация

Support