再帰的言語モデルが不確実性に出会うとき:長文脈における自己反省的プログラム探索の驚くべき有効性
Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context
March 7, 2026
著者: Keivan Alizadeh, Parshin Shojaee, Minsik Cho, Mehrdad Farajtabar
cs.AI
要旨
長文脈の扱いは言語モデルにおける中核的な課題であり続けている:拡張された文脈ウィンドウが利用可能になっても、モデルは長文脈にわたる情報を確実に抽出し、推論し、利用することに往々にして失敗する。Recursive Language Models (RLM) のような最近の研究は、推論時のプログラム的な相互作用を通じて長文脈を再帰的なサブコールに分解するエージェンシー的な方法でこの課題に取り組んでいる。有望ではあるものの、RLMの成功は、これらの文脈相互作用プログラムがどのように選択されるかに大きく依存しており、この点はほとんど未解明のままである。本論文ではこの問題を検討し、不確実性を意識した自己反映を用いてプログラム的な文脈相互作用を拡張するフレームワーク、SRLMを提案する。SRLMは、自己無矛盾性、推論の長さ、言語化された確信度という3つの内在的シグナルを利用する。これらはモデルの内部的な不確実性の相補的指標として機能し、モデルはこれらを用いて候補となる文脈相互作用プログラムを評価・比較する。多様なベンチマークデータセット、文脈長、基盤モデルを用いた広範な実験により、SRLMが最先端のベースラインを一貫して上回り、同じ時間制約下でRLMに対し最大22%の改善をもたらすことを示す。我々の知見は、RLMにおける性能の主たる駆動力が再帰そのものではないこと、そして単純な自己反映的なプログラム探索が、自己問い合わせや明示的な再帰機構を必要とせずにRLMに匹敵あるいは凌駕し得ることを示している。モデルの文脈ウィンドウ内の長さでは、再帰を用いたRLMは基本モデルに対して性能を劣化させることが多いのに対し、SRLMは短文脈・長文脈の両方で一貫した性能向上をもたらす。また、意味的に高度な性質を持つタスクでは、ヒューリスティックなプログラム探索では不十分でより広範な文脈理解が要求されるためRLMは効果が低いが、SRLMにおける自己反映は、こうしたシナリオでの推論をより適切に導く意味的シグナルを提供することを明らかにした。
English
Long-context handling remains a core challenge for language models: even with extended context windows, models often fail to reliably extract, reason over, and use the information across long contexts. Recent works like Recursive Language Models (RLM) have approached this challenge by agentic way of decomposing long contexts into recursive sub-calls through programmatic interaction at inference. While promising, the success of RLM critically depends on how these context-interaction programs are selected, which has remained largely unexplored. In this paper, we study this problem and introduce SRLM, a framework that augments programmatic context interaction with uncertainty-aware Self-Reflection. SRLM leverages three intrinsic signals: self consistency, reasoning length, and verbalized confidence. These serve as complementary indicators of a model's internal uncertainty, and the model uses them to evaluate and compare candidate context-interaction programs. Extensive experiments across diverse benchmark datasets, context lengths, and backbone models, show that SRLM consistently outperforms state-of-the-art baselines, yielding up to 22% improvement over RLM under the same time budget. Our findings show that recursion itself is not the primary driver of performance in RLM, and a simple self-reflective program search can match or surpass RLM without requiring self-query or explicit recursion mechanisms. We find that for context lengths within the model's window, RLMs with recursion often degrade performance relative to the base model, whereas SRLM yields consistent gains across both short and long contexts. We also find that RLM is less effective in tasks with semantically intensive nature, where heuristic program search is insufficient and broader contextual understanding is required, while self-reflection in SRLM provides a semantic signal that better steers reasoning in these scenarios.