첫 시도의 중요성: 추론 모델에서 리플렉션의 역할 재고
First Try Matters: Revisiting the Role of Reflection in Reasoning Models
October 9, 2025
저자: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI
초록
최근 대규모 언어 모델은 사고의 연쇄를 더 길게 생성하고 반성적 추론을 수행할 수 있는 능력 덕분에 추론 능력에서 상당한 향상을 보여주고 있습니다. 그러나 이러한 반성이 성능 개선에 기여하는 정도는 여전히 불분명합니다. 본 논문에서는 5개의 수학 데이터셋에 대해 8개의 추론 모델의 롤아웃을 체계적으로 분석합니다. 우리는 모델이 이미 답을 생성한 후에도 출력을 최종 결정하기 전에 계속 반성하는 행동에 초점을 맞춥니다. 분석 결과, 반성은 주로 확인적이며 모델의 초기 답을 변경하는 경우는 드물었으며, 이 패턴은 모델과 데이터셋 전반에 걸쳐 일관되게 나타났습니다. 훈련에서 반성의 역할을 이해하기 위해, 우리는 다양한 반성 단계를 포함한 지도 미세 조정(SFT) 데이터셋을 구성했습니다. 더 많은 반성 단계가 포함된 롤아웃으로 모델을 훈련시키면, 초기 잘못된 답을 반성을 통해 수정하는 능력보다는 첫 답변의 정확성이 주로 향상되는 것을 관찰했습니다. 이는 추론 과정에서 몇 가지 가능성이 높은 후보 답변이 생성되면 더 이상의 불필요한 반성 단계를 줄이기 위해 조기 중단하는 질문 인식형 조기 중단 방법을 제안하는 동기가 되었습니다. 이를 바탕으로, 우리는 후보 답변이 생성된 후 반성을 동적으로 중단하는 방법을 추가로 제안합니다. 이 방법은 5개의 수학 데이터셋에서 정확도 하락을 2.9% 이내로 유지하면서 추론 토큰을 24.5% 줄일 수 있었습니다.
English
Large language models have recently demonstrated significant gains in
reasoning ability, often attributed to their capacity to generate longer chains
of thought and engage in reflective reasoning. However, the contribution of
reflections to performance improvement remains unclear. In this paper, we
systematically analyze the rollouts of eight reasoning models on five
mathematical datasets. We focus on reflective behaviours where the model has
already produced an answer but continues reflecting before finalizing its
output. Our analysis reveals that reflections are predominantly confirmatory
and rarely alter the model's initial answer, a pattern consistent across models
and datasets. To understand the role of reflections in training, we construct
supervised fine-tuning (SFT) datasets with varying amounts of reflection steps.
We observe that training models on rollouts with more reflection steps
primarily enhances first-answer correctness rather than the ability to correct
initially wrong answers through reflections. This motivates us to propose a
question-aware early-stopping method that enhances inference-time token
efficiency by stopping the reasoning process once a few plausible candidate
answers are generated, thereby reducing unnecessary reflection steps. Motivated
by this, we further propose to dynamically truncate the reflections after a
candidate answer has appeared during generation, which reduces reasoning tokens
by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.