Delen is Helpen: Efficiënte Post-Training van Taalmodellen met Collectieve RL-Ervaringsdeling

Samenvatting

Het post-trainen van taalmmodellen (LMs) met reinforcement learning (RL) kan hun complexe redeneervermogen verbeteren zonder supervised fine-tuning, zoals aangetoond door DeepSeek-R1-Zero. Het effectief inzetten van RL voor LMs vereist echter aanzienlijke parallelisatie om de inferentie op te schalen, wat niet-triviale technische uitdagingen met zich meebrengt (bijv. latentie, geheugen en betrouwbaarheid) naast steeds hogere financiële kosten. Wij presenteren Swarm sAmpling Policy Optimization (SAPO), een volledig gedecentraliseerd en asynchroon RL post-trainingsalgoritme. SAPO is ontworpen voor gedecentraliseerde netwerken van heterogene rekenknooppunten, waarbij elk knooppunt zijn eigen beleidsmodel(len) beheert terwijl het "rollouts" deelt met anderen in het netwerk; er zijn geen expliciete aannames nodig over latentie, modelhomogeniteit of hardware, en knooppunten kunnen indien gewenst in isolatie werken. Hierdoor vermijdt het algoritme veelvoorkomende knelpunten bij het opschalen van RL post-training, terwijl het ook nieuwe mogelijkheden biedt (en zelfs aanmoedigt). Door rollouts te bemonsteren die "gedeeld" zijn over het netwerk, maakt het "Aha-momenten" mogelijk om zich te verspreiden, waardoor het leerproces wordt gebootstrapt. In dit artikel laten we zien dat SAPO cumulatieve beloningswinsten tot 94% behaalde in gecontroleerde experimenten. We delen ook inzichten uit tests op een netwerk met duizenden knooppunten, bijgedragen door leden van de Gensyn-gemeenschap, die het algoritme uitvoerden op diverse hardware en modellen tijdens een open-source demo.

English

Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.

Delen is Helpen: Efficiënte Post-Training van Taalmodellen met Collectieve RL-Ervaringsdeling

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Samenvatting

Support