적게 주는 것이 더 많은 것: 최소한의 테스트 시간 개입으로 LLM 추론 능력 향상
Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention
October 15, 2025
저자: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen
cs.AI
초록
최근 대규모 언어 모델(LLM)의 발전은 추론 계산량을 늘려 사고 능력을 향상시키는 데 초점을 맞추고 있지만, 이는 종종 효율성을 희생시키는 결과를 가져왔습니다. 우리는 테스트 시점의 동작을 재검토하며 간단하지만 충분히 탐구되지 않은 현상을 발견했습니다: 사고 과정에서의 불확실성은 매우 국소적이며, 높은 엔트로피를 가진 소수의 토큰만이 출력의 정확성에 지배적인 영향을 미친다는 것입니다. 이를 바탕으로 우리는 최소한의 테스트 시점 개입(MTI)을 제안합니다. MTI는 추가 학습 없이도 최소한의 오버헤드로 사고 정확성과 안정성을 향상시키는 프레임워크입니다. MTI는 다음 두 가지 주요 요소를 포함합니다: (i) 선택적 CFG(Classifier-Free Guidance) 개입으로, 불확실한 위치에서만 CFG를 적용하며; (ii) 경량화된 네거티브 프롬프트 가이던스로, 메인 모델의 KV 캐시를 재사용하여 무조건 디코딩을 효율적으로 근사합니다. MTI는 일반, 코딩, STEM 과제 전반에 걸쳐 일관된 성능 향상을 보여줍니다. 예를 들어, Qwen3-8B-Base 모델의 경우 8개 벤치마크에서 평균 1.35%의 개선을, Qwen3-32B-Reasoning 모델을 사용한 AIME2024에서는 5%의 성능 향상을 달성하면서도 높은 효율성을 유지합니다.
English
Recent progress in large language models (LLMs) has focused on test-time
scaling to improve reasoning via increased inference computation, but often at
the cost of efficiency. We revisit test-time behavior and uncover a simple yet
underexplored phenomenon: reasoning uncertainty is highly localized-only a
small subset of high-entropy tokens dominantly affects output correctness.
Motivated by this, we propose Minimal Test-Time Intervention (MTI), a
training-free framework that enhances reasoning accuracy and stability with
minimal overhead. MTI includes: (i) Selective CFG intervention, applying
classifier-free guidance only at uncertain positions; and (ii) Lightweight
negative-prompt guidance, reusing the main model's KV cache to approximate
unconditional decoding efficiently. MTI yields consistent gains across general,
coding, and STEM tasks-e.g., +1.35% average improvement on eight benchmarks for
Qwen3-8B-Base and +5% on AIME2024 using Qwen3-32B-Reasoning-while remaining
highly efficient.