ChatPaper.aiChatPaper

SPICE: コーパス環境における自己対話による推論能力の向上

SPICE: Self-Play In Corpus Environments Improves Reasoning

October 28, 2025
著者: Bo Liu, Chuanyang Jin, Seungone Kim, Weizhe Yuan, Wenting Zhao, Ilia Kulikov, Xian Li, Sainbayar Sukhbaatar, Jack Lanchantin, Jason Weston
cs.AI

要旨

自己改善システムは、継続的な適応のために環境との相互作用を必要とする。本稿では、単一のモデルが二つの役割(大規模コーパスから文書を抽出して多様な推論タスクを生成する Challenger と、それらを解決する Reasoner)を遂行する強化学習フレームワーク、SPICE(Self-Play In Corpus Environments)を提案する。敵対的ダイナミクスを通じて、Challenger は Reasoner の能力限界に沿った自動カリキュラムを生成し、コーパスに基づく(grounding)ことで、持続的改善に必要な豊富でほぼ枯渇しない外部信号を提供する。より限定的な利点しか持たない既存の非接地型(ungrounded)自己対戦法とは異なり、SPICE は複数のモデルファミリーにおいて、数学的推論(+8.9%)および一般推論(+8.9%)ベンチマークで一貫した性能向上を達成する。分析により、文書に基づく手法が、SPICE において独自に難易度を増す目標を継続的に生成し達成するための鍵となる要素であり、持続的な自己改善を可能にすることが明らかとなった。
English
Self-improving systems require environmental interaction for continuous adaptation. We introduce SPICE (Self-Play In Corpus Environments), a reinforcement learning framework where a single model acts in two roles: a Challenger that mines documents from a large corpus to generate diverse reasoning tasks, and a Reasoner that solves them. Through adversarial dynamics, the Challenger creates an automatic curriculum at the frontier of the Reasoner's capability, while corpus grounding provides the rich, near-inexhaustible external signal necessary for sustained improvement. Unlike existing ungrounded self-play methods that offer more limited benefits, SPICE achieves consistent gains across mathematical (+8.9%) and general reasoning (+9.8%) benchmarks on multiple model families. Our analysis reveals how document grounding is a key ingredient in SPICE to continuously generate its own increasingly challenging goals and achieve them, enabling sustained self-improvement.
PDF151December 1, 2025