Compartir es cuidar: Post-entrenamiento eficiente de modelos de lenguaje mediante el intercambio colectivo de experiencias de aprendizaje por refuerzo
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
September 10, 2025
Autores: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI
Resumen
Los modelos de lenguaje (LM) post-entrenados con aprendizaje por refuerzo (RL) pueden mejorar sus capacidades de razonamiento complejo sin necesidad de ajuste supervisado, como lo ha demostrado DeepSeek-R1-Zero. Sin embargo, utilizar eficazmente RL para LM requiere una paralelización significativa para escalar la inferencia, lo que introduce desafíos técnicos no triviales (por ejemplo, latencia, memoria y fiabilidad) junto con costos financieros cada vez mayores. Presentamos Swarm sAmpling Policy Optimization (SAPO), un algoritmo de post-entrenamiento con RL completamente descentralizado y asíncrono. SAPO está diseñado para redes descentralizadas de nodos de computación heterogéneos, donde cada nodo gestiona sus propios modelos de política mientras "comparte" trayectorias con otros en la red; no se requieren suposiciones explícitas sobre latencia, homogeneidad de modelos o hardware, y los nodos pueden operar de manera aislada si se desea. Como resultado, el algoritmo evita los cuellos de botella comunes al escalar el post-entrenamiento con RL, al mismo tiempo que permite (e incluso fomenta) nuevas posibilidades. Al muestrear trayectorias "compartidas" en la red, permite que los "momentos de revelación" se propaguen, impulsando así el proceso de aprendizaje. En este artículo mostramos que SAPO logró ganancias acumuladas de recompensa de hasta un 94% en experimentos controlados. También compartimos insights de pruebas en una red con miles de nodos aportados por miembros de la comunidad Gensyn, quienes ejecutaron el algoritmo en hardware y modelos diversos durante una demostración de código abierto.
English
Post-training language models (LMs) with reinforcement learning (RL) can
enhance their complex reasoning capabilities without supervised fine-tuning, as
demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs
requires significant parallelization to scale-up inference, which introduces
non-trivial technical challenges (e.g. latency, memory, and reliability)
alongside ever-growing financial costs. We present Swarm sAmpling Policy
Optimization (SAPO), a fully decentralized and asynchronous RL post-training
algorithm. SAPO is designed for decentralized networks of heterogenous compute
nodes, where each node manages its own policy model(s) while "sharing" rollouts
with others in the network; no explicit assumptions about latency, model
homogeneity, or hardware are required and nodes can operate in silo if desired.
As a result, the algorithm avoids common bottlenecks in scaling RL
post-training while also allowing (and even encouraging) new possibilities. By
sampling rollouts "shared" across the network, it enables "Aha moments" to
propagate, thereby bootstrapping the learning process. In this paper we show
SAPO achieved cumulative reward gains of up to 94% in controlled experiments.
We also share insights from tests on a network with thousands of nodes
contributed by Gensyn community members running the algorithm on diverse
hardware and models during an open-source demo.