ChatPaper.aiChatPaper

Echos als Anker: Probabilistische Kosten und Aufmerksamkeits-Neufokussierung im LLM-Denkprozess

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

February 6, 2026
papers.authors: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI

papers.abstract

Die Zuteilung von Rechenkapazität zur Testzeit in großen Reasoning-Modellen (LRMs) wird häufig eingesetzt und findet Anwendung in mathematischer Problemlösung, Codesynthese und Planung. Jüngste Arbeiten haben dieses Problem durch Skalierung von Self-Consistency und parallelem Denken angegangen, indem generische „Denk-Tokens“ hinzugefügt und Modelle dazu angehalten wurden, die Frage vor der Beantwortung erneut zu lesen. Leider führen diese Ansätze entweder aufgabenagnostische Tokens ein oder erzwingen Heuristiken, die die spontane Wiederholung, die viele LRMs am Anfang ihrer internen Gedankenketten zeigen, weder erklären noch oft ignorieren. Im Gegensatz dazu analysieren und nutzen wir die Tendenz des Modells, die Frage neu zu formulieren – was wir als Echo der Eingabe (Echo of Prompt, EOP) bezeichnen – als einen vorlademechanismus zur Steuerung des Rechenaufwands. Wir formalisieren deren probabilistische Kosten, indem wir die Echo-Entfernung als ablehnungsbasierte Konditionierung betrachten und die Echo-Wahrscheinlichkeitslücke ΔL als berechenbaren Proxy definieren. Dies liefert die fehlende theoretische Verbindung, die frühe Wiederholung mit Likelihood-Gewinnen und nachgelagerter Genauigkeit verknüpft. Allerdings gibt es allein noch nicht vor, wie EOP ausgenutzt werden kann. Daher entwickeln wir Echo-Distilled SFT (ED-SFT), um durch überwachtes Feinabstimmen ein „Echo-dann-Argumentieren“-Muster zu verankern, und Echoic Prompting (EP), um das Modell während der Ablaufverfolgung erneut zu verankern, ohne Training zu benötigen. Obwohl vielversprechend, ist die Quantifizierung des Nutzens über reine Wortreichheit hinaus nicht trivial. Daher führen wir längenkontrollierte und suffixkontrollierte Likelihood-Analysen zusammen mit schichtenweisen Aufmerksamkeitsstudien durch, die zeigen, dass EOP die Aufmerksamkeit von der Antwort auf den Antwortpräfix in mittleren Schichten erhöht, was mit einem Aufmerksamkeits-Neufokussierungsmechanismus konsistent ist. Wir evaluieren auf GSM8K, MathQA, Hendrycks-MATH, AIME24 und MATH-500 unter identischen Dekodierungseinstellungen und Budgets und stellen konsistente Verbesserungen gegenüber den Baselines fest. Code ist verfügbar unter https://github.com/hhh2210/echoes-as-anchors.
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.
PDF22February 11, 2026