SPIRAL: Zelfspel op Nul-Som Spellen Stimuleert Redeneren via Multi-Agent Multi-Turn Versterkend Leren
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
June 30, 2025
Auteurs: Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
cs.AI
Samenvatting
Recente vooruitgang in reinforcement learning heeft aangetoond dat taalmodellen geavanceerd redeneervermogen kunnen ontwikkelen door training op taken met verifieerbare beloningen, maar deze benaderingen zijn afhankelijk van door mensen samengestelde probleem-antwoordparen en domeinspecifieke beloningsengineering. Wij introduceren SPIRAL, een zelfspelraamwerk waarin modellen leren door multi-turn, zero-sum spellen te spelen tegen continu verbeterende versies van zichzelf, waardoor menselijk toezicht overbodig wordt. Door zelfspel genereert SPIRAL een oneindig curriculum van progressief uitdagende problemen, aangezien modellen zich constant moeten aanpassen aan sterkere tegenstanders. Om deze zelfspeltraining op grote schaal mogelijk te maken, implementeren we een volledig online, multi-turn, multi-agent reinforcement learning-systeem voor LLM's en stellen we rol-geconditioneerde voordeelschatting (RAE) voor om multi-agent training te stabiliseren. Met SPIRAL leidt zelfspel op zero-sum spellen tot redeneervermogen dat breed overdraagbaar is. Het trainen van Qwen3-4B-Base op alleen Kuhn Poker resulteert in een verbetering van 8,6% op wiskunde en 8,4% op algemeen redeneervermogen, wat beter presteert dan SFT op 25.000 expertspeltrajecten. Analyse toont aan dat deze overdracht plaatsvindt via drie cognitieve patronen: systematische decompositie, verwachtingswaardeberekening en geval-voor-geval analyse. Multi-spel training (TicTacToe, Kuhn Poker, Simple Negotiation) verbetert de prestaties verder, aangezien elk spel verschillende redeneerkracht ontwikkelt. Het toepassen van SPIRAL op een sterk redeneermodel (DeepSeek-R1-Distill-Qwen-7B) kan nog steeds leiden tot een gemiddelde verbetering van 2,0%. Deze resultaten tonen aan dat zero-sum spellen van nature overdraagbaar redeneervermogen ontwikkelen, wat een veelbelovende richting voor autonome redeneerontwikkeling benadrukt.
English
Recent advances in reinforcement learning have shown that language models can
develop sophisticated reasoning through training on tasks with verifiable
rewards, but these approaches depend on human-curated problem-answer pairs and
domain-specific reward engineering. We introduce SPIRAL, a self-play framework
where models learn by playing multi-turn, zero-sum games against continuously
improving versions of themselves, eliminating the need for human supervision.
Through self-play, SPIRAL generates an infinite curriculum of progressively
challenging problems as models must constantly adapt to stronger opponents. To
enable this self-play training at scale, We implement a fully online,
multi-turn, multi-agent reinforcement learning system for LLMs and propose
role-conditioned advantage estimation (RAE) to stabilize multi-agent training.
Using SPIRAL, self-play on zero-sum games produces reasoning capabilities that
transfer broadly. Training Qwen3-4B-Base on Kuhn Poker alone achieves 8.6%
improvement on math and 8.4% on general reasoning, outperforming SFT on 25,000
expert game trajectories. Analysis reveals that this transfer occurs through
three cognitive patterns: systematic decomposition, expected value calculation,
and case-by-case analysis. Multi-game training (TicTacToe, Kuhn Poker, Simple
Negotiation) further enhances performance as each game develops distinct
reasoning strengths. Applying SPIRAL to a strong reasoning model
(DeepSeek-R1-Distill-Qwen-7B) can still lead to 2.0% average improvement. These
results demonstrate that zero-sum games naturally develop transferable
reasoning capabilities, highlighting a promising direction for autonomous
reasoning development.