ChatPaper.aiChatPaper

SPIRAL: Zelfspel op Nul-Som Spellen Stimuleert Redeneren via Multi-Agent Multi-Turn Versterkend Leren

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

June 30, 2025
Auteurs: Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
cs.AI

Samenvatting

Recente vooruitgang in reinforcement learning heeft aangetoond dat taalmodellen geavanceerd redeneervermogen kunnen ontwikkelen door training op taken met verifieerbare beloningen, maar deze benaderingen zijn afhankelijk van door mensen samengestelde probleem-antwoordparen en domeinspecifieke beloningsengineering. Wij introduceren SPIRAL, een zelfspelraamwerk waarin modellen leren door multi-turn, zero-sum spellen te spelen tegen continu verbeterende versies van zichzelf, waardoor menselijk toezicht overbodig wordt. Door zelfspel genereert SPIRAL een oneindig curriculum van progressief uitdagende problemen, aangezien modellen zich constant moeten aanpassen aan sterkere tegenstanders. Om deze zelfspeltraining op grote schaal mogelijk te maken, implementeren we een volledig online, multi-turn, multi-agent reinforcement learning-systeem voor LLM's en stellen we rol-geconditioneerde voordeelschatting (RAE) voor om multi-agent training te stabiliseren. Met SPIRAL leidt zelfspel op zero-sum spellen tot redeneervermogen dat breed overdraagbaar is. Het trainen van Qwen3-4B-Base op alleen Kuhn Poker resulteert in een verbetering van 8,6% op wiskunde en 8,4% op algemeen redeneervermogen, wat beter presteert dan SFT op 25.000 expertspeltrajecten. Analyse toont aan dat deze overdracht plaatsvindt via drie cognitieve patronen: systematische decompositie, verwachtingswaardeberekening en geval-voor-geval analyse. Multi-spel training (TicTacToe, Kuhn Poker, Simple Negotiation) verbetert de prestaties verder, aangezien elk spel verschillende redeneerkracht ontwikkelt. Het toepassen van SPIRAL op een sterk redeneermodel (DeepSeek-R1-Distill-Qwen-7B) kan nog steeds leiden tot een gemiddelde verbetering van 2,0%. Deze resultaten tonen aan dat zero-sum spellen van nature overdraagbaar redeneervermogen ontwikkelen, wat een veelbelovende richting voor autonome redeneerontwikkeling benadrukt.
English
Recent advances in reinforcement learning have shown that language models can develop sophisticated reasoning through training on tasks with verifiable rewards, but these approaches depend on human-curated problem-answer pairs and domain-specific reward engineering. We introduce SPIRAL, a self-play framework where models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision. Through self-play, SPIRAL generates an infinite curriculum of progressively challenging problems as models must constantly adapt to stronger opponents. To enable this self-play training at scale, We implement a fully online, multi-turn, multi-agent reinforcement learning system for LLMs and propose role-conditioned advantage estimation (RAE) to stabilize multi-agent training. Using SPIRAL, self-play on zero-sum games produces reasoning capabilities that transfer broadly. Training Qwen3-4B-Base on Kuhn Poker alone achieves 8.6% improvement on math and 8.4% on general reasoning, outperforming SFT on 25,000 expert game trajectories. Analysis reveals that this transfer occurs through three cognitive patterns: systematic decomposition, expected value calculation, and case-by-case analysis. Multi-game training (TicTacToe, Kuhn Poker, Simple Negotiation) further enhances performance as each game develops distinct reasoning strengths. Applying SPIRAL to a strong reasoning model (DeepSeek-R1-Distill-Qwen-7B) can still lead to 2.0% average improvement. These results demonstrate that zero-sum games naturally develop transferable reasoning capabilities, highlighting a promising direction for autonomous reasoning development.
PDF433July 1, 2025