SPICE: Самостоятельная игра в корпусных средах улучшает способность к рассуждению
SPICE: Self-Play In Corpus Environments Improves Reasoning
October 28, 2025
Авторы: Bo Liu, Chuanyang Jin, Seungone Kim, Weizhe Yuan, Wenting Zhao, Ilia Kulikov, Xian Li, Sainbayar Sukhbaatar, Jack Lanchantin, Jason Weston
cs.AI
Аннотация
Системы самоусовершенствования требуют взаимодействия со средой для непрерывной адаптации. Мы представляем SPICE (Self-Play In Corpus Environments) — фреймворк обучения с подкреплением, в котором единая модель действует в двух ролях: как Инициатор, который извлекает документы из большого корпуса для генерации разнообразных задач на рассуждение, и как Решатель, который их выполняет. Благодаря адверсарной динамике Инициатор создает автоматизированную учебную программу на границе возможностей Решателя, в то время как привязка к корпусу обеспечивает богатый, практически неисчерпаемый внешний сигнал, необходимый для устойчивого улучшения. В отличие от существующих методов самодостаточной самоподготовки, предлагающих более ограниченные преимущества, SPICE демонстрирует стабильный прогресс на бенчмарках математических (+8.9%) и общих (+9.8%) рассуждений для нескольких семейств моделей. Наш анализ показывает, что привязка к документам является ключевым компонентом SPICE для непрерывной генерации собственных, все более сложных целей и их достижения, что обеспечивает устойчивое самоусовершенствование.
English
Self-improving systems require environmental interaction for continuous
adaptation. We introduce SPICE (Self-Play In Corpus Environments), a
reinforcement learning framework where a single model acts in two roles: a
Challenger that mines documents from a large corpus to generate diverse
reasoning tasks, and a Reasoner that solves them. Through adversarial dynamics,
the Challenger creates an automatic curriculum at the frontier of the
Reasoner's capability, while corpus grounding provides the rich,
near-inexhaustible external signal necessary for sustained improvement. Unlike
existing ungrounded self-play methods that offer more limited benefits, SPICE
achieves consistent gains across mathematical (+8.9%) and general reasoning
(+9.8%) benchmarks on multiple model families. Our analysis reveals how
document grounding is a key ingredient in SPICE to continuously generate its
own increasingly challenging goals and achieve them, enabling sustained
self-improvement.