SPICE : L'auto-jeu dans les environnements de corpus améliore le raisonnement
SPICE: Self-Play In Corpus Environments Improves Reasoning
October 28, 2025
papers.authors: Bo Liu, Chuanyang Jin, Seungone Kim, Weizhe Yuan, Wenting Zhao, Ilia Kulikov, Xian Li, Sainbayar Sukhbaatar, Jack Lanchantin, Jason Weston
cs.AI
papers.abstract
Les systèmes d'auto-amélioration nécessitent une interaction avec l'environnement pour une adaptation continue. Nous présentons SPICE (Self-Play In Corpus Environments), un cadre d'apprentissage par renforcement où un modèle unique joue deux rôles : un Défieur qui extrait des documents d'un vaste corpus pour générer des tâches de raisonnement diversifiées, et un Raisonneur qui les résout. Grâce à une dynamique antagoniste, le Défieur crée un curriculum automatique à la frontière des capacités du Raisonneur, tandis que l'ancrage dans le corpus fournit le signal externe riche et quasi inépuisable nécessaire à une amélioration soutenue. Contrairement aux méthodes existantes de jeu autonome non ancrées qui offrent des bénéfices plus limités, SPICE obtient des gains constants sur des référentiels de raisonnement mathématique (+8,9%) et général (+9,8%) pour plusieurs familles de modèles. Notre analyse révèle comment l'ancrage documentaire est un ingrédient clé de SPICE pour générer continuellement ses propres objectifs de difficulté croissante et les atteindre, permettant une auto-amélioration durable.
English
Self-improving systems require environmental interaction for continuous
adaptation. We introduce SPICE (Self-Play In Corpus Environments), a
reinforcement learning framework where a single model acts in two roles: a
Challenger that mines documents from a large corpus to generate diverse
reasoning tasks, and a Reasoner that solves them. Through adversarial dynamics,
the Challenger creates an automatic curriculum at the frontier of the
Reasoner's capability, while corpus grounding provides the rich,
near-inexhaustible external signal necessary for sustained improvement. Unlike
existing ungrounded self-play methods that offer more limited benefits, SPICE
achieves consistent gains across mathematical (+8.9%) and general reasoning
(+9.8%) benchmarks on multiple model families. Our analysis reveals how
document grounding is a key ingredient in SPICE to continuously generate its
own increasingly challenging goals and achieve them, enabling sustained
self-improvement.