Teilen ist Kümmern: Effizientes Post-Training von Sprachmodellen durch kollektives RL-Erfahrungsteilen
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
September 10, 2025
papers.authors: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI
papers.abstract
Das Nachträglich-Trainieren von Sprachmodellen (Language Models, LMs) mit Verstärkungslernen (Reinforcement Learning, RL) kann deren Fähigkeiten im komplexen logischen Denken verbessern, ohne dass eine überwachte Feinabstimmung erforderlich ist, wie von DeepSeek-R1-Zero demonstriert wurde. Die effektive Nutzung von RL für LMs erfordert jedoch eine erhebliche Parallelisierung, um die Inferenz zu skalieren, was nicht unerhebliche technische Herausforderungen (z. B. Latenz, Speicher und Zuverlässigkeit) sowie stetig steigende finanzielle Kosten mit sich bringt. Wir stellen Swarm Sampling Policy Optimization (SAPO) vor, einen vollständig dezentralen und asynchronen RL-Algorithmus für das Nachträglich-Trainieren. SAPO ist für dezentrale Netzwerke aus heterogenen Rechenknoten konzipiert, wobei jeder Knoten seine eigenen Policy-Modelle verwaltet, während er Rollouts mit anderen im Netzwerk „teilt“; es werden keine expliziten Annahmen über Latenz, Modellhomogenität oder Hardware benötigt, und die Knoten können bei Bedarf isoliert arbeiten. Dadurch vermeidet der Algorithmus gängige Engpässe bei der Skalierung von RL-Nachtrainings und ermöglicht (sogar fördert) neue Möglichkeiten. Durch das Sammeln von Rollouts, die im Netzwerk „geteilt“ werden, ermöglicht es die Verbreitung von „Aha-Momenten“, wodurch der Lernprozess beschleunigt wird. In diesem Artikel zeigen wir, dass SAPO in kontrollierten Experimenten kumulative Belohnungsgewinne von bis zu 94 % erzielte. Wir teilen auch Erkenntnisse aus Tests in einem Netzwerk mit Tausenden von Knoten, die von Mitgliedern der Gensyn-Community während einer Open-Source-Demo auf unterschiedlicher Hardware und mit verschiedenen Modellen betrieben wurden.
English
Post-training language models (LMs) with reinforcement learning (RL) can
enhance their complex reasoning capabilities without supervised fine-tuning, as
demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs
requires significant parallelization to scale-up inference, which introduces
non-trivial technical challenges (e.g. latency, memory, and reliability)
alongside ever-growing financial costs. We present Swarm sAmpling Policy
Optimization (SAPO), a fully decentralized and asynchronous RL post-training
algorithm. SAPO is designed for decentralized networks of heterogenous compute
nodes, where each node manages its own policy model(s) while "sharing" rollouts
with others in the network; no explicit assumptions about latency, model
homogeneity, or hardware are required and nodes can operate in silo if desired.
As a result, the algorithm avoids common bottlenecks in scaling RL
post-training while also allowing (and even encouraging) new possibilities. By
sampling rollouts "shared" across the network, it enables "Aha moments" to
propagate, thereby bootstrapping the learning process. In this paper we show
SAPO achieved cumulative reward gains of up to 94% in controlled experiments.
We also share insights from tests on a network with thousands of nodes
contributed by Gensyn community members running the algorithm on diverse
hardware and models during an open-source demo.