Ecos como Anclas: Costos Probabilísticos y Reorientación de la Atención en el Razonamiento de los LLM
Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning
February 6, 2026
Autores: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI
Resumen
La asignación de cómputo en tiempo de prueba en los grandes modelos de razonamiento (LRM, por sus siglas en inglés) es una práctica ampliamente utilizada con aplicaciones en la resolución de problemas matemáticos, síntesis de código y planificación. Trabajos recientes han abordado este problema mediante el escalado de la autoconsistencia y el pensamiento paralelo, añadiendo "tokens de pensamiento" genéricos e incitando a los modelos a releer la pregunta antes de responder. Lamentablemente, estos enfoques inyectan tokens independientes de la tarea o imponen heurísticas que no explican —y a menudo ignoran— la repetición espontánea que muchos LRM exhiben al inicio de sus cadenas internas. En contraste, nosotros analizamos y aprovechamos la tendencia del modelo a replantear la pregunta, a lo que denominamos el Eco del Prompt (EOP), como un mecanismo de configuración del cómputo cargado al inicio. Formalizamos su costo probabilístico planteando la eliminación del eco como un condicionamiento basado en rechazo y definiendo la Brecha de Probabilidad del Eco (ΔL) como un proxy computable. Esto proporciona el nexo teórico faltante que vincula la repetición temprana con las ganancias de verosimilitud y la precisión subsiguiente. Sin embargo, esto por sí solo no especifica cómo explotar el EOP. En consecuencia, desarrollamos el Fine-Tuning Supervisado Destilado por Eco (ED-SFT) para inculcar un patrón de "eco-y-luego-razonar" mediante fine-tuning supervisado, y el Prompting Ecóico (EP) para re-anclar el modelo a mitad de la traza sin necesidad de entrenamiento. Si bien son prometedores, cuantificar los beneficios más allá de la verbosidad no es trivial. Por lo tanto, realizamos análisis de verosimilitud controlados por longitud y sufijo, junto con estudios de atención por capas, demostrando que el EOP aumenta la atención de la respuesta hacia el prefijo de la respuesta en las capas medias, lo que es consistente con un mecanismo de reenfoque de la atención. Evaluamos en GSM8K, MathQA, Hendrycks-MATH, AIME24 y MATH-500 bajo configuraciones y presupuestos de decodificación idénticos, y encontramos ganancias consistentes respecto a los baselines. El código está disponible en https://github.com/hhh2210/echoes-as-anchors.
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.