Condividere è Prendersi Cura: Post-Addestramento Efficiente di LM con Condivisione Collettiva dell'Esperienza di RL

Abstract

I modelli linguistici (LM) post-addestramento con apprendimento per rinforzo (RL) possono potenziare le loro capacità di ragionamento complesso senza un fine-tuning supervisionato, come dimostrato da DeepSeek-R1-Zero. Tuttavia, utilizzare efficacemente l'RL per i LM richiede una significativa parallelizzazione per scalare l'inferenza, il che introduce sfide tecniche non banali (ad esempio, latenza, memoria e affidabilità) insieme a costi finanziari in continua crescita. Presentiamo Swarm sAmpling Policy Optimization (SAPO), un algoritmo di post-addestramento RL completamente decentralizzato e asincrono. SAPO è progettato per reti decentralizzate di nodi di calcolo eterogenei, dove ogni nodo gestisce i propri modelli di policy mentre "condivide" i rollout con altri nella rete; non sono richieste ipotesi esplicite su latenza, omogeneità del modello o hardware, e i nodi possono operare in isolamento se desiderato. Di conseguenza, l'algoritmo evita i comuni colli di bottiglia nella scalabilità del post-addestramento RL, consentendo (e persino incoraggiando) nuove possibilità. Campionando i rollout "condivisi" attraverso la rete, permette ai "momenti di intuizione" di propagarsi, avviando così il processo di apprendimento. In questo articolo mostriamo che SAPO ha ottenuto guadagni cumulativi di ricompensa fino al 94% in esperimenti controllati. Condividiamo anche approfondimenti derivati da test su una rete con migliaia di nodi contribuiti dai membri della comunità Gensyn, che hanno eseguito l'algoritmo su hardware e modelli diversi durante una demo open-source.

English

Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.

Condividere è Prendersi Cura: Post-Addestramento Efficiente di LM con Condivisione Collettiva dell'Esperienza di RL

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Abstract

Support