SPICE: Zelfspel in Corpusomgevingen Verbeterd Redeneervermogen
SPICE: Self-Play In Corpus Environments Improves Reasoning
October 28, 2025
Auteurs: Bo Liu, Chuanyang Jin, Seungone Kim, Weizhe Yuan, Wenting Zhao, Ilia Kulikov, Xian Li, Sainbayar Sukhbaatar, Jack Lanchantin, Jason Weston
cs.AI
Samenvatting
Zelfverbeterende systemen vereisen interactie met de omgeving voor continue aanpassing. Wij introduceren SPICE (*Self-Play In Corpus Environments*), een raamwerk voor reinforcement learning waarin één model twee rollen vervult: een *Challenger* die documenten uit een grote corpus mineert om diverse redeneertaken te genereren, en een *Reasoner* die deze taken oplost. Door middel van adversariële dynamiek creëert de Challenger een automatisch curriculum aan de grenzen van het kunnen van de Reasoner, terwijl de verankering in de corpus zorgt voor het rijke, bijna onuitputtelijke externe signaal dat nodig is voor aanhoudende verbetering. In tegenstelling tot bestaande, niet-geaarde zelf-speelmethoden die beperktere voordelen bieden, behaalt SPICE consistente vooruitgang op wiskundige (+8,9%) en algemene redeneerbenchmarks (+9,8%) over meerdere modelfamilies. Onze analyse toont aan dat document-verankering een cruciale component in SPICE is om continu zijn eigen, steeds uitdagender doelen te genereren en deze te bereiken, waardoor aanhoudende zelfverbetering mogelijk wordt.
English
Self-improving systems require environmental interaction for continuous
adaptation. We introduce SPICE (Self-Play In Corpus Environments), a
reinforcement learning framework where a single model acts in two roles: a
Challenger that mines documents from a large corpus to generate diverse
reasoning tasks, and a Reasoner that solves them. Through adversarial dynamics,
the Challenger creates an automatic curriculum at the frontier of the
Reasoner's capability, while corpus grounding provides the rich,
near-inexhaustible external signal necessary for sustained improvement. Unlike
existing ungrounded self-play methods that offer more limited benefits, SPICE
achieves consistent gains across mathematical (+8.9%) and general reasoning
(+9.8%) benchmarks on multiple model families. Our analysis reveals how
document grounding is a key ingredient in SPICE to continuously generate its
own increasingly challenging goals and achieve them, enabling sustained
self-improvement.