ChatPaper.aiChatPaper

Échos comme ancres : Coûts probabilistes et recentrage de l'attention dans le raisonnement des LLM

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

February 6, 2026
papers.authors: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI

papers.abstract

L'allocation du calcul au moment du test dans les grands modèles de raisonnement (LRM) est largement utilisée et trouve des applications dans la résolution de problèmes mathématiques, la synthèse de code et la planification. Des travaux récents ont abordé ce problème en augmentant l'auto-cohérence et la pensée parallèle, en ajoutant des « jetons de pensée » génériques et en incitant les modèles à relire la question avant de répondre. Malheureusement, ces approches injectent soit des jetons indépendants de la tâche, soit imposent des heuristiques qui n'expliquent pas – et ignorent souvent – la répétition spontanée que de nombreux LRM présentent en tête de leurs chaînes internes. En revanche, nous analysons et exploitons la tendance du modèle à reformuler la question, que nous appelons l'Écho de l'Invite (EOP), comme un mécanisme de façonnage du calcul en amont. Nous formalisons son coût probabiliste en considérant la suppression de l'écho comme un conditionnement par rejet et en définissant l'Écart de Vraisemblance de l'Écho ΔL comme un proxy calculable. Cela fournit le lien théorique manquant qui relie la répétition précoce aux gains de vraisemblance et à la précision en aval. Cependant, cela ne spécifie pas en soi comment exploiter l'EOP. Par conséquent, nous développons l'Apprentissage Supervisé Distillé par l'Écho (ED-SFT) pour inculquer un schéma « écho-puis-raisonnement » par apprentissage supervisé avec fine-tuning, et l'Invitation Échoïque (EP) pour ré-ancrer le modèle en cours de raisonnement sans entraînement. Bien que prometteurs, quantifier les bénéfices au-delà de la verbosité est non trivial. Par conséquent, nous menons des analyses de vraisemblance contrôlées par la longueur et le suffixe, ainsi que des études d'attention par couche, montrant que l'EOP augmente l'attention de la réponse vers le préfixe de la réponse dans les couches intermédiaires, ce qui est cohérent avec un mécanisme de recentrage de l'attention. Nous évaluons sur GSM8K, MathQA, Hendrycks-MATH, AIME24 et MATH-500 dans des conditions de décodage et des budgets identiques, et constatons des gains constants par rapport aux lignes de base. Le code est disponible à l'adresse https://github.com/hhh2210/echoes-as-anchors.
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.
PDF22February 11, 2026