SPICE: Selbstspiel in Korpusumgebungen verbessert das Denkvermögen
SPICE: Self-Play In Corpus Environments Improves Reasoning
October 28, 2025
papers.authors: Bo Liu, Chuanyang Jin, Seungone Kim, Weizhe Yuan, Wenting Zhao, Ilia Kulikov, Xian Li, Sainbayar Sukhbaatar, Jack Lanchantin, Jason Weston
cs.AI
papers.abstract
Selbstverbessernde Systeme benötigen Umgebungsinteraktion für kontinuierliche Anpassung. Wir stellen SPICE (Self-Play In Corpus Environments) vor, ein Reinforcement-Learning-Framework, bei dem ein einzelnes Modell in zwei Rollen agiert: ein Herausforderer, der Dokumente aus einem großen Korpus extrahiert, um vielfältige Reasoning-Aufgaben zu generieren, und ein Reasoner, der diese löst. Durch adversariale Dynamiken erstellt der Herausforderer einen automatischen Lehrplan an der Grenze der Fähigkeiten des Reasoners, während die Korpusverankerung das reichhaltige, nahezu unerschöpfliche externe Signal für nachhaltige Verbesserungen bereitstellt. Im Gegensatz zu existierenden unverankerten Self-Play-Methoden mit begrenzterem Nutzen erzielt SPICE konsistente Gewinne über mathematische (+8,9 %) und allgemeine Reasoning-Benchmarks (+9,8 %) hinweg in mehreren Modellfamilien. Unsere Analyse zeigt, dass die Dokumentenverankerung in SPICE eine Schlüsselkomponente ist, um kontinuierlich eigene, zunehmend anspruchsvolle Ziele zu generieren und diese zu erreichen, was nachhaltige Selbstverbesserung ermöglicht.
English
Self-improving systems require environmental interaction for continuous
adaptation. We introduce SPICE (Self-Play In Corpus Environments), a
reinforcement learning framework where a single model acts in two roles: a
Challenger that mines documents from a large corpus to generate diverse
reasoning tasks, and a Reasoner that solves them. Through adversarial dynamics,
the Challenger creates an automatic curriculum at the frontier of the
Reasoner's capability, while corpus grounding provides the rich,
near-inexhaustible external signal necessary for sustained improvement. Unlike
existing ungrounded self-play methods that offer more limited benefits, SPICE
achieves consistent gains across mathematical (+8.9%) and general reasoning
(+9.8%) benchmarks on multiple model families. Our analysis reveals how
document grounding is a key ingredient in SPICE to continuously generate its
own increasingly challenging goals and achieve them, enabling sustained
self-improvement.