ChatPaper.aiChatPaper

Echi come Ancore: Costi Probabilistici e Riorientamento dell'Attenzione nel Ragionamento dei LLM

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

February 6, 2026
Autori: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI

Abstract

L'allocazione del calcolo al momento del test nei grandi modelli di ragionamento (LRM) è ampiamente utilizzata e trova applicazione nella risoluzione di problemi matematici, nella sintesi di codice e nella pianificazione. Recenti lavori hanno affrontato questo problema scalando l'auto-consistenza e il pensiero parallelo, aggiungendo generici "token di pensiero" e sollecitando i modelli a rileggere la domanda prima di rispondere. Sfortunatamente, questi approcci iniettano token indipendenti dal compito o impongono euristiche che non spiegano – e spesso ignorano – la ripetizione spontanea che molti LRM mostrano all'inizio delle loro catene interne. Al contrario, noi analizziamo e sfruttiamo la tendenza del modello a riaffermare la domanda, che definiamo Eco del Prompt (EOP), come meccanismo di modellazione del calcolo caricato in anticipo. Ne formalizziamo il costo probabilistico inquadrando la rimozione dell'eco come un condizionamento basato sul rejection e definendo il Divario di Probabilità dell'Eco (ΔL) come un proxy calcolabile. Questo fornisce il collegamento teorico mancante che collega la ripetizione iniziale ai guadagni di likelihood e all'accuratezza a valle. Tuttavia, ciò di per sé non specifica come sfruttare l'EOP. Di conseguenza, sviluppiamo l'addattamento supervisionato distillato dall'eco (ED-SFT) per instillare uno schema "prima l'eco, poi il ragionamento" attraverso l'addattamento supervisionato, e il Prompting Eonico (EP) per ricalibrare il modello a metà traccia senza addestramento. Sebbene promettenti, quantificare i benefici al di là della verbosità non è banale. Pertanto, conduciamo analisi di likelihood controllate per lunghezza e suffisso insieme a studi sull'attenzione per strato, mostrando che l'EOP aumenta l'attenzione dalla risposta al prefisso della risposta negli strati intermedi, coerentemente con un meccanismo di rifocalizzazione dell'attenzione. Valutiamo su GSM8K, MathQA, Hendrycks-MATH, AIME24 e MATH-500 in condizioni di decodifica e budget identici, e riscontriamo miglioramenti consistenti rispetto ai baseline. Il codice è disponibile all'indirizzo https://github.com/hhh2210/echoes-as-anchors.
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.
PDF22March 31, 2026