Compartilhar é Cuidar: Pós-treinamento Eficiente de Modelos de Linguagem com Compartilhamento Coletivo de Experiência em RL

Resumo

Modelos de linguagem (LMs) pós-treinamento com aprendizado por reforço (RL) podem aprimorar suas capacidades de raciocínio complexo sem a necessidade de ajuste fino supervisionado, conforme demonstrado pelo DeepSeek-R1-Zero. No entanto, utilizar o RL de forma eficaz para LMs exige uma paralelização significativa para escalar a inferência, o que introduz desafios técnicos não triviais (por exemplo, latência, memória e confiabilidade) juntamente com custos financeiros crescentes. Apresentamos o Swarm sAmpling Policy Optimization (SAPO), um algoritmo de RL pós-treinamento totalmente descentralizado e assíncrono. O SAPO foi projetado para redes descentralizadas de nós de computação heterogêneos, onde cada nó gerencia seus próprios modelos de política enquanto "compartilha" rollouts com outros na rede; não são necessárias suposições explícitas sobre latência, homogeneidade de modelos ou hardware, e os nós podem operar de forma isolada, se desejado. Como resultado, o algoritmo evita gargalos comuns ao escalar o RL pós-treinamento, ao mesmo tempo em que permite (e até incentiva) novas possibilidades. Ao amostrar rollouts "compartilhados" pela rede, ele permite que "momentos de insight" se propaguem, impulsionando assim o processo de aprendizado. Neste artigo, mostramos que o SAPO alcançou ganhos cumulativos de recompensa de até 94% em experimentos controlados. Também compartilhamos insights de testes em uma rede com milhares de nós contribuídos por membros da comunidade Gensyn, que executaram o algoritmo em hardwares e modelos diversos durante uma demonstração de código aberto.

English

Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.

Compartilhar é Cuidar: Pós-treinamento Eficiente de Modelos de Linguagem com Compartilhamento Coletivo de Experiência em RL

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Resumo

Support