TERMINATOR: 체인-오브-생각 추론에서 조기 중단을 위한 최적 종료 지점 학습
TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
March 13, 2026
저자: Alliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim
cs.AI
초록
대규모 추론 모델(LRM)은 최종 답변에 도달하기 전 중간 사고 토큰을 생성할 수 있는 사고 연쇄(CoT) 추론을 통해 복잡한 추론 과제에서 인상적인 성능을 달성합니다. 그러나 LRM은 종종 심각한 과도 사고 문제를 겪으며, 답변이 일찍 생성된 후에도 과도한 계산 시간을 소모합니다. 기존 연구에서는 이 시점에서 추론을 중단하면 성능 저하 없이 CoT 출력을 상당히 단축할 수 있는 최적의 추론 길이가 존재함을 확인했습니다. 그러나 실제 데이터셋에 대한 최적의 CoT 길이를 결정하는 것은 과제와 모델에 완전히 의존하기 때문에 매우 복잡한 문제입니다. 본 논문에서는 이 문제를 정확히 해결하기 위해 추론 시 LRM의 과도 사고를 완화하는 조기 종료 전략인 TERMINATOR를 설계합니다. TERMINATOR의 핵심 아이디어는 LRM의 최종 답변이 처음 나타나는 위치를 예측 가능하며, 이러한 첫 답변 위치를 활용하여 TERMINATOR를 훈련시키기 위한 최적 추론 길이의 새로운 데이터셋을 생성한다는 것입니다. 이 접근법을 바탕으로 TERMINATOR는 MATH-500, AIME 2025, HumanEval, GPQA의 네 가지 도전적인 실제 데이터셋에서 평균 14%~55%의 CoT 길이 감소를 달성하면서도 현재 최신 방법들을 능가하는 성능을 보여줍니다.
English
Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.