Ecos como Âncoras: Custos Probabilísticos e Reorientação da Atenção no Raciocínio de LLMs
Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning
February 6, 2026
Autores: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI
Resumo
A alocação de computação no momento do teste em grandes modelos de raciocínio (LRMs) é amplamente utilizada e tem aplicações na resolução de problemas matemáticos, síntese de código e planejamento. Trabalhos recentes abordaram esse problema através da expansão da autoconsistência e do pensamento paralelo, adicionando "tokens de pensamento" genéricos e instruindo os modelos a reler a questão antes de responder. Infelizmente, essas abordagens ou injetam tokens independentes da tarefa ou impõem heurísticas que não explicam – e frequentemente ignoram – a repetição espontânea que muitos LRMs exibem no início de suas cadeias internas. Em contraste, nós analisamos e aproveitamos a tendência do modelo de repetir a questão, que denominamos de Eco do Prompt (EOP), como um mecanismo de modelagem de computação com carga frontal. Formalizamos seu custo probabilístico enquadrando a remoção do eco como um condicionamento baseado em rejeição e definindo a Lacuna de Probabilidade do Eco (ΔL) como um proxy computável. Isso fornece a ligação teórica ausente que conecta a repetição inicial a ganhos de probabilidade e precisão subsequente. No entanto, isso por si só não especifica como explorar o EOP. Consequentemente, desenvolvemos o Ajuste Fino Supervisionado Destilado por Eco (ED-SFT) para incutir um padrão de "ecoar-depois-raciocinar" através do ajuste fino supervisionado, e a Promptagem Ecóica (EP) para reancorar o modelo no meio do rastreamento, sem necessidade de treinamento. Embora promissores, quantificar benefícios além da verbosidade não é trivial. Portanto, conduzimos análises de probabilidade controladas por comprimento e sufixo, juntamente com estudos de atenção por camadas, mostrando que o EOP aumenta a atenção da resposta para o prefixo da resposta nas camadas intermediárias, consistente com um mecanismo de refocalização da atenção. Avaliamos no GSM8K, MathQA, Hendrycks-MATH, AIME24 e MATH-500 sob configurações e orçamentos de decodificação idênticos, e encontramos ganhos consistentes em relação às linhas de base. O código está disponível em https://github.com/hhh2210/echoes-as-anchors.
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.