메아리를 닻으로: LLM 추론에서의 확률적 비용과 주의 재초점
Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning
February 6, 2026
저자: Zhuoyuan Hao, Zhuo Li, Wu Li, Fangming Liu, Min Zhang, Jing Li
cs.AI
초록
대규모 추론 모델(LRMs)에서의 테스트 시점 계산 자원 할당은 수학 문제 해결, 코드 합성, 계획 수립 등에 널리 활용되고 있습니다. 최근 연구는 자기 일관성과 병렬 사고의 확장, 일반적인 "사고 토큰"의 추가, 모델에 답변 전 질문 재확인을 촉구하는 방식으로 이 문제를 다루었습니다. 그러나 이러한 접근법들은 작업에 무관한 토큰을 주입하거나, 많은 LRM이 내부 사고 체인 시작 부분에서 보이는 자발적 반복 현상을 설명하지 못하고 오히려 무시하는 휴리스틱을 강요하는 한계가 있습니다. 이와 대조적으로, 우리는 모델의 질문 재진술 경향성을 분석하고 이를 에코 오브 프롬프트(Echo of Prompt, EOP)로 명명하여 전방 부하 방식의 계산 형성 메커니즘으로 활용합니다. 우리는 에코 제거를 기각 기반 조건화로 규정하고 계산 가능한 대리 지표인 에코 가능도 갭(ΔL)을 정의함으로써 EOP의 확률적 비용을 공식화합니다. 이는 초기 반복 현상과 가능도 향상, 하류 작업 정확도 간의 이론적 연결고리를 제공합니다. 하지만 이것만으로 EOP를 활용하는 구체적 방법을 제시하지는 못합니다. 이에 따라 우리는 지도 미세 조정을 통해 "에코 후 추론" 패턴을 주입하는 에코 증류 지도 미세 조정(ED-SFT)과, 추가 학습 없이 추론 과정 중 모델의 토대를 재설정하는 에코식 프롬프팅(EP)을 개발했습니다. 유망하나, 단순한 장문화를 넘어선 이점을 정량화하는 것은 간단하지 않습니다. 따라서 우리는 길이 및 접미사 통제 가능도 분석과 계층별 어텐션 연구를 병행하여 EOP가 중간 계층에서 답변-대-답변 접두어 어텐션을 증가시키며, 이는 어텐션 재집중 메커니즘과 일관됨을 보여줍니다. 우리는 GSM8K, MathQA, Hendrycks-MATH, AIME24, MATH-500 데이터셋에서 동일한 디코딩 설정과 예산 하에 평가를 수행했으며, 기준선 대비 일관된 성능 향상을 확인했습니다. 코드는 https://github.com/hhh2210/echoes-as-anchors에서 이용 가능합니다.
English
Test-time compute allocation in large reasoning models (LRMs) is widely used and has applications in mathematical problem solving, code synthesis, and planning. Recent work has addressed this problem by scaling self-consistency and parallel thinking, adding generic ``thinking tokens'' and prompting models to re-read the question before answering. Unfortunately, these approaches either inject task-agnostic tokens or mandate heuristics that do not explain -- and often ignore -- the spontaneous repetition that many LRMs exhibit at the head of their internal chains. In contrast, we analyze and harness the model's tendency to restate the question, which we term the Echo of Prompt (EOP), as a front-loaded, compute-shaping mechanism. We formalize its probabilistic cost by casting echo removal as rejection-based conditioning and defining the Echo Likelihood Gap ΔL as a computable proxy. This provides the missing theoretical link that links early repetition to likelihood gains and downstream accuracy. However, it does not by itself specify how to exploit EOP. Consequently, we develop Echo-Distilled SFT (ED-SFT) to instill an ``echo-then-reason'' pattern through supervised finetuning, and Echoic Prompting (EP) to re-ground the model mid-trace without training. While promising, quantifying benefits beyond verbosity is non-trivial. Therefore, we conduct length and suffix-controlled likelihood analyses together with layer-wise attention studies, showing that EOP increases answer to answer-prefix attention in middle layers, consistent with an attention refocusing mechanism. We evaluate on GSM8K, MathQA, Hendrycks-MATH, AIME24, and MATH-500 under identical decoding settings and budgets, and find consistent gains over baselines. Code is available at https://github.com/hhh2210/echoes-as-anchors.