Le Partage, c'est l'Entraide : Post-formation Efficace des Modèles de Langage grâce au Partage Collectif d'Expériences en Apprentissage par Renforcement
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
September 10, 2025
papers.authors: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI
papers.abstract
Le post-entraînement des modèles de langage (LMs) avec l'apprentissage par renforcement (RL) peut améliorer leurs capacités de raisonnement complexe sans nécessiter de fine-tuning supervisé, comme l'a démontré DeepSeek-R1-Zero. Cependant, l'utilisation efficace du RL pour les LMs nécessite une parallélisation importante pour augmenter l'inférence, ce qui introduit des défis techniques non négligeables (par exemple, la latence, la mémoire et la fiabilité) ainsi que des coûts financiers en constante augmentation. Nous présentons Swarm sAmpling Policy Optimization (SAPO), un algorithme de post-entraînement RL entièrement décentralisé et asynchrone. SAPO est conçu pour des réseaux décentralisés de nœuds de calcul hétérogènes, où chaque nœud gère ses propres modèles de politique tout en "partageant" les rollouts avec d'autres dans le réseau ; aucune hypothèse explicite sur la latence, l'homogénéité des modèles ou le matériel n'est requise, et les nœuds peuvent fonctionner de manière isolée si souhaité. En conséquence, l'algorithme évite les goulots d'étranglement courants dans la mise à l'échelle du post-entraînement RL tout en permettant (et même en encourageant) de nouvelles possibilités. En échantillonnant les rollouts "partagés" à travers le réseau, il permet aux "moments de révélation" de se propager, amorçant ainsi le processus d'apprentissage. Dans cet article, nous montrons que SAPO a permis des gains de récompense cumulative allant jusqu'à 94 % dans des expériences contrôlées. Nous partageons également des insights provenant de tests sur un réseau de milliers de nœuds contribués par les membres de la communauté Gensyn, exécutant l'algorithme sur du matériel et des modèles variés lors d'une démonstration open-source.
English
Post-training language models (LMs) with reinforcement learning (RL) can
enhance their complex reasoning capabilities without supervised fine-tuning, as
demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs
requires significant parallelization to scale-up inference, which introduces
non-trivial technical challenges (e.g. latency, memory, and reliability)
alongside ever-growing financial costs. We present Swarm sAmpling Policy
Optimization (SAPO), a fully decentralized and asynchronous RL post-training
algorithm. SAPO is designed for decentralized networks of heterogenous compute
nodes, where each node manages its own policy model(s) while "sharing" rollouts
with others in the network; no explicit assumptions about latency, model
homogeneity, or hardware are required and nodes can operate in silo if desired.
As a result, the algorithm avoids common bottlenecks in scaling RL
post-training while also allowing (and even encouraging) new possibilities. By
sampling rollouts "shared" across the network, it enables "Aha moments" to
propagate, thereby bootstrapping the learning process. In this paper we show
SAPO achieved cumulative reward gains of up to 94% in controlled experiments.
We also share insights from tests on a network with thousands of nodes
contributed by Gensyn community members running the algorithm on diverse
hardware and models during an open-source demo.