Le Partage, c'est l'Entraide : Post-formation Efficace des Modèles de Langage grâce au Partage Collectif d'Expériences en Apprentissage par Renforcement

papers.abstract

Le post-entraînement des modèles de langage (LMs) avec l'apprentissage par renforcement (RL) peut améliorer leurs capacités de raisonnement complexe sans nécessiter de fine-tuning supervisé, comme l'a démontré DeepSeek-R1-Zero. Cependant, l'utilisation efficace du RL pour les LMs nécessite une parallélisation importante pour augmenter l'inférence, ce qui introduit des défis techniques non négligeables (par exemple, la latence, la mémoire et la fiabilité) ainsi que des coûts financiers en constante augmentation. Nous présentons Swarm sAmpling Policy Optimization (SAPO), un algorithme de post-entraînement RL entièrement décentralisé et asynchrone. SAPO est conçu pour des réseaux décentralisés de nœuds de calcul hétérogènes, où chaque nœud gère ses propres modèles de politique tout en "partageant" les rollouts avec d'autres dans le réseau ; aucune hypothèse explicite sur la latence, l'homogénéité des modèles ou le matériel n'est requise, et les nœuds peuvent fonctionner de manière isolée si souhaité. En conséquence, l'algorithme évite les goulots d'étranglement courants dans la mise à l'échelle du post-entraînement RL tout en permettant (et même en encourageant) de nouvelles possibilités. En échantillonnant les rollouts "partagés" à travers le réseau, il permet aux "moments de révélation" de se propager, amorçant ainsi le processus d'apprentissage. Dans cet article, nous montrons que SAPO a permis des gains de récompense cumulative allant jusqu'à 94 % dans des expériences contrôlées. Nous partageons également des insights provenant de tests sur un réseau de milliers de nœuds contribués par les membres de la communauté Gensyn, exécutant l'algorithme sur du matériel et des modèles variés lors d'une démonstration open-source.

English

Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.

Le Partage, c'est l'Entraide : Post-formation Efficace des Modèles de Langage grâce au Partage Collectif d'Expériences en Apprentissage par Renforcement

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

papers.abstract

Support