OpenSIR: オープンエンド型自己改善推論システム
OpenSIR: Open-Ended Self-Improving Reasoner
November 1, 2025
著者: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini
cs.AI
要旨
大規模言語モデル(LLM)の推論能力を強化学習によって向上させる最近のアプローチは、検証可能な報酬を得るための注釈付きデータセットに依存しており、これは人間レベルの性能を超えるモデルの能力を制限する可能性がある。自己対戦は有望な代替手段となるが、既存の手法は外部検証器に依存するか、オープンエンドな学習ができない。本論文では、**オープンエンド自己改善推論器(OpenSIR)** を提案する。これは、外部の監督を必要とせず、教師役と生徒役を交互に切り替えながらLLMが新規問題の生成と解決を学習する自己対戦フレームワークである。新規問題を生成するために、OpenSIRは難易度と多様性の両方を最適化し、適切な挑戦を提供すると同時に異なる概念を探索する問題に報酬を与えることで、オープンエンドな数学的発見を可能にする。単一の自明なシード問題から開始して、OpenSIRは指示チューニングモデルを大幅に改善する:Llama-3.2-3B-InstructはGSM8Kで73.9から78.3に、College Mathで28.8から34.4に向上し、Gemma-2-2B-InstructはGSM8Kで38.5から58.7に上昇した。我々の分析により、OpenSIRが難易度を適応的に調整し、多様な探索を駆動する共進化的な教師-生徒役割を通じてオープンエンド学習を達成し、基礎数学から高度な数学へ自律的に進歩することが明らかになった。
English
Recent advances in large language model (LLM) reasoning through reinforcement
learning rely on annotated datasets for verifiable rewards, which may limit
models' ability to surpass human-level performance. While self-play offers a
promising alternative, existing approaches depend on external verifiers or
cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner
(OpenSIR), a self-play framework where an LLM learns to generate and solve
novel problems by alternating teacher and student roles without external
supervision. To generate novel problems, OpenSIR optimises for both difficulty
and diversity, rewarding problems that challenge appropriately while exploring
distinct concepts, enabling open-ended mathematical discovery. Starting from a
single trivial seed problem, OpenSIR substantially improves instruction models:
Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to
34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on
GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through
co-evolving teacher-student roles that adaptively calibrate difficulty and
drive diverse exploration, progressing autonomously from basic to advanced
mathematics.