Compartir es cuidar: Post-entrenamiento eficiente de modelos de lenguaje mediante el intercambio colectivo de experiencias de aprendizaje por refuerzo

Resumen

Los modelos de lenguaje (LM) post-entrenados con aprendizaje por refuerzo (RL) pueden mejorar sus capacidades de razonamiento complejo sin necesidad de ajuste supervisado, como lo ha demostrado DeepSeek-R1-Zero. Sin embargo, utilizar eficazmente RL para LM requiere una paralelización significativa para escalar la inferencia, lo que introduce desafíos técnicos no triviales (por ejemplo, latencia, memoria y fiabilidad) junto con costos financieros cada vez mayores. Presentamos Swarm sAmpling Policy Optimization (SAPO), un algoritmo de post-entrenamiento con RL completamente descentralizado y asíncrono. SAPO está diseñado para redes descentralizadas de nodos de computación heterogéneos, donde cada nodo gestiona sus propios modelos de política mientras "comparte" trayectorias con otros en la red; no se requieren suposiciones explícitas sobre latencia, homogeneidad de modelos o hardware, y los nodos pueden operar de manera aislada si se desea. Como resultado, el algoritmo evita los cuellos de botella comunes al escalar el post-entrenamiento con RL, al mismo tiempo que permite (e incluso fomenta) nuevas posibilidades. Al muestrear trayectorias "compartidas" en la red, permite que los "momentos de revelación" se propaguen, impulsando así el proceso de aprendizaje. En este artículo mostramos que SAPO logró ganancias acumuladas de recompensa de hasta un 94% en experimentos controlados. También compartimos insights de pruebas en una red con miles de nodos aportados por miembros de la comunidad Gensyn, quienes ejecutaron el algoritmo en hardware y modelos diversos durante una demostración de código abierto.

English

Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.

Compartir es cuidar: Post-entrenamiento eficiente de modelos de lenguaje mediante el intercambio colectivo de experiencias de aprendizaje por refuerzo

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Resumen

Support