SPIRAL: Самостоятельная игра в антагонистических играх стимулирует рассуждения через многозадачное многократное обучение с подкреплением для нескольких агентов
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
June 30, 2025
Авторы: Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
cs.AI
Аннотация
Последние достижения в области обучения с подкреплением показали, что языковые модели могут развивать сложные навыки рассуждения за счет обучения на задачах с проверяемыми наградами. Однако такие подходы зависят от пар "задача-ответ", созданных человеком, и специфической инженерии наград для конкретных областей. Мы представляем SPIRAL — фреймворк для самообучения, в котором модели учатся, играя в многоходовые игры с нулевой суммой против постоянно улучшающихся версий самих себя, что устраняет необходимость в человеческом контроле. Благодаря самообучению SPIRAL генерирует бесконечный учебный план из постепенно усложняющихся задач, поскольку модели вынуждены постоянно адаптироваться к более сильным оппонентам. Для масштабирования такого обучения мы реализуем полностью онлайн-систему многоходового многопользовательского обучения с подкреплением для больших языковых моделей (LLM) и предлагаем оценку преимуществ с учетом ролей (RAE) для стабилизации многопользовательского обучения. Используя SPIRAL, самообучение на играх с нулевой суммой развивает навыки рассуждения, которые переносятся на широкий спектр задач. Обучение модели Qwen3-4B-Base только на игре Кун Покер приводит к улучшению на 8,6% в математических задачах и на 8,4% в общих задачах на рассуждение, превосходя результаты обучения на 25 000 экспертных траекторий игр. Анализ показывает, что такой перенос происходит благодаря трем когнитивным паттернам: систематической декомпозиции, расчету ожидаемой стоимости и пошаговому анализу. Обучение на нескольких играх (Крестики-нолики, Кун Покер, Простые переговоры) дополнительно улучшает результаты, так как каждая игра развивает уникальные навыки рассуждения. Применение SPIRAL к сильной модели рассуждения (DeepSeek-R1-Distill-Qwen-7B) также приводит к среднему улучшению на 2,0%. Эти результаты демонстрируют, что игры с нулевой суммой естественным образом развивают переносимые навыки рассуждения, открывая перспективное направление для автономного развития рассуждений.
English
Recent advances in reinforcement learning have shown that language models can
develop sophisticated reasoning through training on tasks with verifiable
rewards, but these approaches depend on human-curated problem-answer pairs and
domain-specific reward engineering. We introduce SPIRAL, a self-play framework
where models learn by playing multi-turn, zero-sum games against continuously
improving versions of themselves, eliminating the need for human supervision.
Through self-play, SPIRAL generates an infinite curriculum of progressively
challenging problems as models must constantly adapt to stronger opponents. To
enable this self-play training at scale, We implement a fully online,
multi-turn, multi-agent reinforcement learning system for LLMs and propose
role-conditioned advantage estimation (RAE) to stabilize multi-agent training.
Using SPIRAL, self-play on zero-sum games produces reasoning capabilities that
transfer broadly. Training Qwen3-4B-Base on Kuhn Poker alone achieves 8.6%
improvement on math and 8.4% on general reasoning, outperforming SFT on 25,000
expert game trajectories. Analysis reveals that this transfer occurs through
three cognitive patterns: systematic decomposition, expected value calculation,
and case-by-case analysis. Multi-game training (TicTacToe, Kuhn Poker, Simple
Negotiation) further enhances performance as each game develops distinct
reasoning strengths. Applying SPIRAL to a strong reasoning model
(DeepSeek-R1-Distill-Qwen-7B) can still lead to 2.0% average improvement. These
results demonstrate that zero-sum games naturally develop transferable
reasoning capabilities, highlighting a promising direction for autonomous
reasoning development.