ChatPaper.aiChatPaper

共有はケア:集団的強化学習による効率的な言語モデル事後学習

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

September 10, 2025
著者: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI

要旨

強化学習(RL)を用いたポストトレーニング言語モデル(LMs)は、教師ありファインチューニングなしで複雑な推論能力を向上させることが可能であり、DeepSeek-R1-Zeroによってその有効性が実証されています。しかし、LMsに対してRLを効果的に活用するためには、推論をスケールアップするための大幅な並列化が必要であり、これにはレイテンシ、メモリ、信頼性といった技術的な課題と、増大し続けるコストが伴います。本論文では、完全に分散化され非同期型のRLポストトレーニングアルゴリズムであるSwarm sAmpling Policy Optimization(SAPO)を提案します。SAPOは、異種の計算ノードからなる分散ネットワーク向けに設計されており、各ノードは自身のポリシーモデルを管理しながら、ネットワーク内の他のノードとロールアウトを「共有」します。レイテンシ、モデルの均一性、ハードウェアに関する明示的な前提は不要であり、ノードは必要に応じて独立して動作することも可能です。その結果、このアルゴリズムはRLポストトレーニングのスケーリングにおける一般的なボトルネックを回避し、新たな可能性を許容(さらには促進)します。ネットワーク全体で「共有」されたロールアウトをサンプリングすることで、「ひらめきの瞬間」が伝播し、学習プロセスをブートストラップすることが可能になります。本論文では、SAPOが制御実験において最大94%の累積報酬向上を達成したことを示します。また、Gensynコミュニティメンバーが提供した数千のノードからなるネットワーク上でのテストから得られた知見を共有します。このテストでは、オープンソースデモ中に多様なハードウェアとモデル上でアルゴリズムが実行されました。
English
Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.
PDF44050September 11, 2025