Эхо как якоря: вероятностные издержки и перефокусировка внимания в рассуждениях больших языковых моделей

Аннотация

Распределение вычислительных ресурсов во время тестирования в больших моделях рассуждений (LRM) широко применяется для решения математических задач, синтеза кода и планирования. В последних работах эта проблема решалась за счет масштабирования самосогласованности и параллельного мышления, добавления универсальных «токенов мышления» и указания моделям перечитывать вопрос перед ответом. К сожалению, эти подходы либо вводят не зависящие от задачи токены, либо предписывают эвристики, которые не объясняют — и часто игнорируют — спонтанное повторение, которое многие LRM демонстрируют в начале своих внутренних цепочек. В отличие от них, мы анализируем и используем склонность модели переформулировать вопрос, что мы называем Эхом Промпта (EOP), в качестве фронтально загруженного механизма формирования вычислений. Мы формализуем его вероятностную стоимость, рассматривая удаление эха как условное отвержение и определяя Разрыв Вероятности Эха ΔL как вычислимый прокси-показатель. Это обеспечивает недостающее теоретическое звено, связывающее раннее повторение с ростом правдоподобия и итоговой точностью. Однако само по себе это не определяет, как использовать EOP. Следовательно, мы разрабатываем Концентрированное Контролируемое Тонкое Настраивание с Эхом (ED-SFT), чтобы привить шаблон «эхо-затем-рассуждение» через контролируемое дообучение, и Эховое Промптирование (EP) для повторного заземления модели в середине цепочки без обучения. Несмотря на перспективность, количественная оценка преимуществ за пределами многословия нетривиальна. Поэтому мы проводим анализ правдоподобия с контролем длины и суффикса вместе с послойными исследованиями внимания, показывая, что EOP увеличивает внимание от ответа к префиксу ответа в средних слоях, что согласуется с механизмом перефокусировки внимания. Мы оцениваем подход на GSM8K, MathQA, Hendrycks-MATH, AIME24 и MATH-500 в идентичных условиях декодирования и бюджетах и обнаруживаем стабильное преимущество над базовыми методами. Код доступен по адресу https://github.com/hhh2210/echoes-as-anchors.

English

Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.

Эхо как якоря: вероятностные издержки и перефокусировка внимания в рассуждениях больших языковых моделей

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

Аннотация

Support