Compartilhar é Cuidar: Pós-treinamento Eficiente de Modelos de Linguagem com Compartilhamento Coletivo de Experiência em RL
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing
September 10, 2025
Autores: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI
Resumo
Modelos de linguagem (LMs) pós-treinamento com aprendizado por reforço (RL) podem aprimorar suas capacidades de raciocínio complexo sem a necessidade de ajuste fino supervisionado, conforme demonstrado pelo DeepSeek-R1-Zero. No entanto, utilizar o RL de forma eficaz para LMs exige uma paralelização significativa para escalar a inferência, o que introduz desafios técnicos não triviais (por exemplo, latência, memória e confiabilidade) juntamente com custos financeiros crescentes. Apresentamos o Swarm sAmpling Policy Optimization (SAPO), um algoritmo de RL pós-treinamento totalmente descentralizado e assíncrono. O SAPO foi projetado para redes descentralizadas de nós de computação heterogêneos, onde cada nó gerencia seus próprios modelos de política enquanto "compartilha" rollouts com outros na rede; não são necessárias suposições explícitas sobre latência, homogeneidade de modelos ou hardware, e os nós podem operar de forma isolada, se desejado. Como resultado, o algoritmo evita gargalos comuns ao escalar o RL pós-treinamento, ao mesmo tempo em que permite (e até incentiva) novas possibilidades. Ao amostrar rollouts "compartilhados" pela rede, ele permite que "momentos de insight" se propaguem, impulsionando assim o processo de aprendizado. Neste artigo, mostramos que o SAPO alcançou ganhos cumulativos de recompensa de até 94% em experimentos controlados. Também compartilhamos insights de testes em uma rede com milhares de nós contribuídos por membros da comunidade Gensyn, que executaram o algoritmo em hardwares e modelos diversos durante uma demonstração de código aberto.
English
Post-training language models (LMs) with reinforcement learning (RL) can
enhance their complex reasoning capabilities without supervised fine-tuning, as
demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs
requires significant parallelization to scale-up inference, which introduces
non-trivial technical challenges (e.g. latency, memory, and reliability)
alongside ever-growing financial costs. We present Swarm sAmpling Policy
Optimization (SAPO), a fully decentralized and asynchronous RL post-training
algorithm. SAPO is designed for decentralized networks of heterogenous compute
nodes, where each node manages its own policy model(s) while "sharing" rollouts
with others in the network; no explicit assumptions about latency, model
homogeneity, or hardware are required and nodes can operate in silo if desired.
As a result, the algorithm avoids common bottlenecks in scaling RL
post-training while also allowing (and even encouraging) new possibilities. By
sampling rollouts "shared" across the network, it enables "Aha moments" to
propagate, thereby bootstrapping the learning process. In this paper we show
SAPO achieved cumulative reward gains of up to 94% in controlled experiments.
We also share insights from tests on a network with thousands of nodes
contributed by Gensyn community members running the algorithm on diverse
hardware and models during an open-source demo.