エコーをアンカーとして:LLM推論における確率的コストと注意の再焦点化
Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning
February 6, 2026
著者: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI
要旨
大規模推論モデル(LRM)におけるテスト時計算リソース配分は、数学的問題解決、コード合成、計画立案など様々な応用分野で広く利用されている。近年の研究では、自己一貫性のスケーリングや並列思考、汎用的な「思考トークン」の追加、回答前の問題再読プロンプトなどによってこの問題に取り組んできた。しかしこれらの手法は、タスク非依存のトークンを注入するか、多くのLRMが内部連鎖の先頭で自然に示す反復現象を説明できず無視しがちなヒューリスティックを強要するものであった。これに対し我々は、プロンプトの反響(Echo of Prompt: EOP)と名付けた、モデルが問題文を言い直す傾向を、計算資源形成メカニズムとして前方配置で分析・活用する。反響除去を棄却ベースの条件付けとして定式化し、計算可能な代理指標として反響尤度格差ΔLを定義することで、EOPの確率的コストを形式化する。これにより、早期反復と尤度向上・下流精度との理論的関連が初めて明らかになった。ただしこれだけではEOPの活用方法は特定できない。そこで我々は、教師ありファインチューニングを通じて「反響→推論」パターンを注入するEcho-Distilled SFT (ED-SFT)と、訓練なしで推論途中にモデルを再接地させるEchoic Prompting (EP)を開発した。有望とはいえ、冗長性以外の効果を定量化するのは容易ではない。このため我々は、長さと接尾辞を制御した尤度分析と層別注意機構の研究を実施し、EOPが中間層における回答から回答接頭部への注意を増加させること、つまり注意の再焦点化メカニズムと整合的な現象を明らかにした。GSM8K、MathQA、Hendrycks-MATH、AIME24、MATH-500において、デコード設定と計算予算を統一して評価した結果、ベースラインを一貫して上回る性能向上を確認した。コードはhttps://github.com/hhh2210/echoes-as-anchorsで公開されている。
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.