ChatPaper.aiChatPaper

学習限界の先へ:モデルが自ら学ぶ方法を学ぶ推論技術

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

January 26, 2026
著者: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe
cs.AI

要旨

モデルは自らの学習プラトーを脱出することを学べるか?大規模推論モデルのファインチューニングにおいて、強化学習手法は初期成功率が低く、したがって学習信号が乏しいデータセット上で行き詰まる。我々は根本的な問いを探る:事前学習済み大規模言語モデルは、自身が解けない問題に対する自動化されたカリキュラムを生成するために潜在的知識を活用できるか?これを探求するため、SOARを設計した:メタ強化学習を通じてこれらの教育的信号を表面化させる自己改善フレームワークである。モデルの教師コピーが生徒コピーに対して合成的な問題を提案し、難問の小さなサブセットにおける生徒の改善度によって報酬を得る。決定的に、SOARはカリキュラムを内在的な代理報酬ではなく、測定された生徒の進歩に基づいて接地する。数学的ベンチマークの最難関サブセット(初期成功率0/128)での研究により、3つの核心的知見が明らかになった。第一に、事前学習済みモデルが有用なステッピングストーンを生成する潜在能力を鋭敏化させることで、疎な二値報酬下での学習を可能にする二段階メタ強化学習が実現可能であることを示す。第二に、接地された報酬は従来の大規模言語モデル自己対戦で用いられてきた内在的報酬スキームを凌駕し、それらが典型的に示す不安定性や多様性崩壊モードを確実に回避する。第三に、生成された問題の分析から、学習の進歩には解答の正しさよりも、構造的質と明確な問題設定がより重要であることが明らかになった。我々の結果は、有用なステッピングストーンを生成する能力が、難問を実際に解く既存の能力を必要としないことを示唆し、追加の精選データなしで推論のプラトーを脱出する原理に基づいた道筋を拓く。
English
Can a model learn to escape its own learning plateau? Reinforcement learning methods for finetuning large reasoning models stall on datasets with low initial success rates, and thus little training signal. We investigate a fundamental question: Can a pretrained LLM leverage latent knowledge to generate an automated curriculum for problems it cannot solve? To explore this, we design SOAR: A self-improvement framework designed to surface these pedagogical signals through meta-RL. A teacher copy of the model proposes synthetic problems for a student copy, and is rewarded with its improvement on a small subset of hard problems. Critically, SOAR grounds the curriculum in measured student progress rather than intrinsic proxy rewards. Our study on the hardest subsets of mathematical benchmarks (0/128 success) reveals three core findings. First, we show that it is possible to realize bi-level meta-RL that unlocks learning under sparse, binary rewards by sharpening a latent capacity of pretrained models to generate useful stepping stones. Second, grounded rewards outperform intrinsic reward schemes used in prior LLM self-play, reliably avoiding the instability and diversity collapse modes they typically exhibit. Third, analyzing the generated questions reveals that structural quality and well-posedness are more critical for learning progress than solution correctness. Our results suggest that the ability to generate useful stepping stones does not require the preexisting ability to actually solve the hard problems, paving a principled path to escape reasoning plateaus without additional curated data.
PDF221January 28, 2026