효과적인 추론의 특징은 무엇인가? CoT의 길이, 검토, 구조 재고
What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT
September 23, 2025
저자: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn
cs.AI
초록
대규모 추론 모델(LRMs)은 긴 사고의 연쇄(CoT) 추적에 상당한 테스트 시간 계산을 소비하지만, 효과적인 CoT를 *특징짓는* 요소는 여전히 불분명합니다. 기존 연구에서는 CoT를 길게 확장하고 추가된 *대기* 토큰을 통해 이전 단계를 재검토함으로써 성능 향상을 보고했지만, 최근 연구에서는 더 짧은 사고가 더 긴 추적을 능가할 수 있음을 시사합니다. 따라서 우리는 수학 및 과학적 추론에 대해 10개의 LRM을 대상으로 체계적인 평가를 수행했습니다. "길수록 좋다"는 통념과는 달리, 단순한 CoT 길이 확장과 재검토 증가는 모두 *낮은* 정확도와 관련이 있음을 발견했습니다.
CoT가 단계별로 전개됨에 따라, 토큰 수준의 메트릭은 장황함과 프로세스 품질을 혼동할 수 있습니다. 우리는 CoT의 구조를 추출하기 위해 그래프 뷰를 도입하고, 모델 간 정확도에 대해 길이와 재검토 비율을 일관되게 능가하는 단일 통계량인 *실패 단계 비율(FSF)*, 즉 포기된 분기에서의 단계 비율을 식별했습니다. 인과 관계를 탐구하기 위해 두 가지 개입을 설계했습니다. 첫째, 테스트 시간에 각 메트릭별로 후보 CoT를 순위 매기면 FSF가 가장 큰 pass@1 향상을 가져옵니다. 둘째, 실패한 분기를 제거하도록 CoT를 편집하면 정확도가 크게 향상되어, 실패한 분기가 후속 추론에 편향을 주는 것을 나타냅니다. 종합적으로, 이러한 결과는 효과적인 CoT를 *실패가 적은* 것으로 특징짓고, 무분별하게 긴 CoT를 생성하는 것보다 *구조를 고려한* 테스트 시간 스케일링을 지원합니다.
English
Large reasoning models (LRMs) spend substantial test-time compute on long
chain-of-thought (CoT) traces, but what *characterizes* an effective CoT
remains unclear. While prior work reports gains from lengthening CoTs and
increasing review (revisiting earlier steps) via appended *wait* tokens, recent
studies suggest that shorter thinking can outperform longer traces. We
therefore conduct a systematic evaluation across ten LRMs on math and
scientific reasoning. Contrary to the "longer-is-better" narrative, we find
that both naive CoT lengthening and increased review are associated with
*lower* accuracy.
As CoT unfolds step by step, token-level metrics can conflate verbosity with
process quality. We introduce a graph view of CoT to extract structure and
identify a single statistic-the *Failed-Step Fraction (FSF)*, the fraction of
steps in abandoned branches-that consistently outpredicts length and review
ratio for correctness across models. To probe causality, we design two
interventions. First, we rank candidate CoTs by each metric at test time, where
FSF yields the largest pass@1 gains; second, we edit CoTs to remove failed
branches, which significantly improves accuracy, indicating that failed
branches bias subsequent reasoning. Taken together, these results characterize
effective CoTs as those that *fail less* and support *structure-aware*
test-time scaling over indiscriminately generating long CoT.