より長く思考し、より深く探求せよ:長さをインセンティブとした強化学習によるインコンテキスト探索の学習
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
February 12, 2026
著者: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin
cs.AI
要旨
効果的なテスト時スケーリングを実現するには、モデルが「文脈内探索」、すなわち単一の連続した文脈内で複数の推論仮説を生成、検証、洗練させる本質的な能力を発揮することが必要である。
状態カバレッジ理論に基づく我々の分析は、この能力を実現する上での重大なボトルネックを明らかにしている:より広範な状態カバレッジにはより長い推論軌道が必要である一方で、そのような系列をサンプリングする確率は自己回帰生成の過程で指数的に減衰する。我々はこの現象を「浅い探索の罠」と名付ける。
この隔たりを埋めるため、我々は長さ誘引型探索(\method)を提案する。
この簡潔かつ効果的な手法は、冗長性ペナルティと組み合わされた長さベースの報酬を通じて、モデルがより探索することを明示的に促進し、それにより二段階の方法で状態カバレッジを最大化する。
様々なモデル(Qwen3, Llama)を用いた総合的な実験により、\method が文脈内探索を効果的に促進することが実証された。
その結果、本手法はイン・ドメインタスクで平均4.4%、アウト・オブ・ドメインベンチマークで2.7%の改善を達成した。
English
Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context.
Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''.
To bridge this gap, we propose Length-Incentivized Exploration(\method).
This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner.
Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration.
As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.