スイートスポットを維持する:能力適応型ヒントスキャフォールディングによる応答的推論の進化
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
著者: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる上で顕著な成功を収めています。しかし、既存のRLVR手法は、トレーニングデータの難易度とモデルの能力のミスマッチによる探索効率の低さに悩まされることが多いです。問題が過度に難しい場合、LLMは有効な推論経路を見つけられず、逆に問題が簡単すぎる場合には新たな能力をほとんど学習しません。本研究では、損失の減少速度とロールアウト精度の関係を定量化することで、問題の難易度の影響を形式化します。この分析に基づいて、我々はSEELEという新しい監督補助型RLVRフレームワークを提案します。SEELEは、各トレーニングサンプルに元の問題の後にヒント(完全な解答の一部)を追加することで、問題の難易度を動的に調整し、高効率領域に留まるようにします。従来のヒントベースのアプローチとは異なり、SEELEは各問題に対して意図的かつ適応的にヒントの長さを調整し、最適な難易度を実現します。最適なヒントの長さを決定するために、SEELEは多段階のロールアウトサンプリング戦略を採用します。各段階で、前の段階で収集された精度とヒントのペアに基づいて項目反応理論モデルをフィットさせ、次の段階に必要なヒントの長さを予測します。このインスタンスレベルでのリアルタイムな難易度調整により、問題の難易度が進化するモデル能力と一致し、探索効率が向上します。実験結果は、SEELEがGroup Relative Policy Optimization(GRPO)とSupervised Fine-tuning(SFT)をそれぞれ+11.8ポイントと+10.5ポイント上回り、6つの数学推論ベンチマークで従来の最良の監督補助型アプローチを平均+3.6ポイント上回ることを示しています。
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.