LLM 추론 오버클럭킹: LLM의 사고 경로 길이 모니터링 및 제어
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
저자: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
초록
최근, 명시적 구조화된 추론과 같은 기법들이 모델의 내부 "사고" 과정과 최종 응답 간의 분리를 강제함으로써 강력한 테스트 시간 스케일링 행동을 보여주었다. 이러한 설정에서 답변 품질에 영향을 미치는 주요 요소는 사고 단계의 길이다. 추론이 너무 짧을 경우, 모델이 작업의 복잡성을 포착하지 못할 수 있다. 반대로 너무 길 경우, 모델이 과도하게 사고하여 불필요한 계산을 수행하고 성능이 저하될 수 있다. 본 논문은 대형 언어 모델(LLM)이 명시적 사고 과정 중 자신의 추론 길이를 이해하고 조절하는 근본적인 메커니즘을 탐구하고 활용한다. 첫째, LLM이 추론 과정을 통해 진행 상황을 인코딩함을 보이고, 이를 통해 모델의 계획 역학에 대한 통찰을 제공하는 인터랙티브 진행률 표시줄 시각화를 소개한다. 둘째, 추론 중 내부 진행 인코딩을 조작하여 불필요한 단계를 줄이고 더 간결하고 결정적인 사고 사슬을 생성한다. 우리의 실험 결과는 이러한 "오버클럭킹" 방법이 과도한 사고를 완화하고 답변 정확도를 향상시키며 추론 지연 시간을 줄임을 보여준다. 우리의 코드는 공개되어 있다.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.