ChatPaper.aiChatPaper

공유는 배려다: 집단적 강화 학습 경험 공유를 통한 효율적인 언어 모델 사후 학습

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

September 10, 2025
저자: Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
cs.AI

초록

강화 학습(RL)을 통한 사후 학습 언어 모델(LMs)은 지도 미세 조정 없이도 복잡한 추론 능력을 향상시킬 수 있으며, 이는 DeepSeek-R1-Zero에서 입증되었습니다. 그러나 LMs에 RL을 효과적으로 활용하기 위해서는 추론을 확장하기 위해 상당한 병렬화가 필요하며, 이는 지속적으로 증가하는 재정적 비용과 함께 (예: 지연 시간, 메모리, 신뢰성과 같은) 사소하지 않은 기술적 도전 과제를 야기합니다. 우리는 완전히 분산되고 비동기적인 RL 사후 학습 알고리즘인 Swarm sAmpling Policy Optimization(SAPO)을 제시합니다. SAPO는 이질적인 컴퓨팅 노드로 구성된 분산 네트워크를 위해 설계되었으며, 각 노드는 자체 정책 모델을 관리하면서 네트워크 내 다른 노드들과 롤아웃을 "공유"합니다. 지연 시간, 모델 동질성 또는 하드웨어에 대한 명시적인 가정이 필요하지 않으며, 원한다면 노드가 독립적으로 운영될 수도 있습니다. 결과적으로, 이 알고리즘은 RL 사후 학습의 확장에서 흔히 발생하는 병목 현상을 피할 뿐만 아니라 새로운 가능성을 허용(심지어 장려)합니다. 네트워크 전반에 "공유"된 롤아웃을 샘플링함으로써, "아하 순간"이 전파되어 학습 과정을 부트스트랩할 수 있게 합니다. 본 논문에서 우리는 SAPO가 통제된 실험에서 최대 94%의 누적 보상 증가를 달성했음을 보여줍니다. 또한, Gensyn 커뮤니티 멤버들이 기여한 수천 개의 노드로 구성된 네트워크에서 다양한 하드웨어와 모델을 사용하여 알고리즘을 실행한 오픈소스 데모 테스트에서 얻은 통찰도 공유합니다.
English
Post-training language models (LMs) with reinforcement learning (RL) can enhance their complex reasoning capabilities without supervised fine-tuning, as demonstrated by DeepSeek-R1-Zero. However, effectively utilizing RL for LMs requires significant parallelization to scale-up inference, which introduces non-trivial technical challenges (e.g. latency, memory, and reliability) alongside ever-growing financial costs. We present Swarm sAmpling Policy Optimization (SAPO), a fully decentralized and asynchronous RL post-training algorithm. SAPO is designed for decentralized networks of heterogenous compute nodes, where each node manages its own policy model(s) while "sharing" rollouts with others in the network; no explicit assumptions about latency, model homogeneity, or hardware are required and nodes can operate in silo if desired. As a result, the algorithm avoids common bottlenecks in scaling RL post-training while also allowing (and even encouraging) new possibilities. By sampling rollouts "shared" across the network, it enables "Aha moments" to propagate, thereby bootstrapping the learning process. In this paper we show SAPO achieved cumulative reward gains of up to 94% in controlled experiments. We also share insights from tests on a network with thousands of nodes contributed by Gensyn community members running the algorithm on diverse hardware and models during an open-source demo.
PDF44050September 11, 2025