ChatPaper.aiChatPaper

O que Caracteriza o Raciocínio Eficaz? Revisitando Comprimento, Revisão e Estrutura do CoT (Cadeia de Pensamento)

What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

September 23, 2025
Autores: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn
cs.AI

Resumo

Modelos de raciocínio de grande escala (LRMs) gastam uma quantidade substancial de computação durante o teste em longas cadeias de pensamento (CoT), mas o que *caracteriza* uma CoT eficaz ainda não está claro. Embora trabalhos anteriores relatem ganhos ao alongar as CoTs e aumentar a revisão (revisitando etapas anteriores) por meio de tokens de *espera* adicionados, estudos recentes sugerem que pensamentos mais curtos podem superar traços mais longos. Portanto, realizamos uma avaliação sistemática em dez LRMs para raciocínio matemático e científico. Contrariando a narrativa de "quanto mais longo, melhor", descobrimos que tanto o alongamento ingênuo das CoTs quanto o aumento da revisão estão associados a uma precisão *menor*. À medida que a CoT se desdobra passo a passo, métricas em nível de token podem confundir verbosidade com qualidade do processo. Introduzimos uma visão em grafo da CoT para extrair estrutura e identificar uma única estatística - a *Fração de Passos Falhos (FSF)*, a fração de etapas em ramos abandonados - que consistentemente supera o comprimento e a taxa de revisão na previsão de correção entre os modelos. Para investigar a causalidade, projetamos duas intervenções. Primeiro, classificamos as CoTs candidatas por cada métrica no momento do teste, onde a FSF produz os maiores ganhos em pass@1; segundo, editamos as CoTs para remover ramos falhos, o que melhora significativamente a precisão, indicando que ramos falhos enviesam o raciocínio subsequente. Juntos, esses resultados caracterizam CoTs eficazes como aquelas que *falham menos* e apoiam a escalabilidade no momento do teste *consciente da estrutura* em vez de gerar indiscriminadamente CoTs longas.
English
Large reasoning models (LRMs) spend substantial test-time compute on long chain-of-thought (CoT) traces, but what *characterizes* an effective CoT remains unclear. While prior work reports gains from lengthening CoTs and increasing review (revisiting earlier steps) via appended *wait* tokens, recent studies suggest that shorter thinking can outperform longer traces. We therefore conduct a systematic evaluation across ten LRMs on math and scientific reasoning. Contrary to the "longer-is-better" narrative, we find that both naive CoT lengthening and increased review are associated with *lower* accuracy. As CoT unfolds step by step, token-level metrics can conflate verbosity with process quality. We introduce a graph view of CoT to extract structure and identify a single statistic-the *Failed-Step Fraction (FSF)*, the fraction of steps in abandoned branches-that consistently outpredicts length and review ratio for correctness across models. To probe causality, we design two interventions. First, we rank candidate CoTs by each metric at test time, where FSF yields the largest pass@1 gains; second, we edit CoTs to remove failed branches, which significantly improves accuracy, indicating that failed branches bias subsequent reasoning. Taken together, these results characterize effective CoTs as those that *fail less* and support *structure-aware* test-time scaling over indiscriminately generating long CoT.
PDF222September 24, 2025