¿Qué caracteriza el razonamiento efectivo? Revisando la longitud, revisión y estructura del CoT (Chain of Thought)
What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT
September 23, 2025
Autores: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn
cs.AI
Resumen
Los modelos de razonamiento a gran escala (LRMs) dedican un tiempo de cómputo considerable durante las pruebas a largas trazas de pensamiento en cadena (CoT), pero lo que *caracteriza* una CoT efectiva sigue sin estar claro. Si bien trabajos previos reportan mejoras al alargar las CoT y aumentar la revisión (volver a pasos anteriores) mediante la adición de tokens de *espera*, estudios recientes sugieren que un pensamiento más corto puede superar a las trazas más largas. Por lo tanto, realizamos una evaluación sistemática en diez LRMs sobre razonamiento matemático y científico. Contrario a la narrativa de "más largo es mejor", encontramos que tanto el alargamiento ingenuo de las CoT como el aumento de la revisión están asociados con una precisión *menor*.
A medida que la CoT se desarrolla paso a paso, las métricas a nivel de token pueden confundir la verbosidad con la calidad del proceso. Introducimos una vista gráfica de la CoT para extraer su estructura e identificar una única estadística: la *Fracción de Pasos Fallidos (FSF)*, la fracción de pasos en ramas abandonadas, que consistentemente predice mejor la corrección que la longitud y la proporción de revisión en todos los modelos. Para explorar la causalidad, diseñamos dos intervenciones. Primero, clasificamos las CoT candidatas por cada métrica durante las pruebas, donde la FSF produce las mayores ganancias en pass@1; segundo, editamos las CoT para eliminar las ramas fallidas, lo que mejora significativamente la precisión, indicando que las ramas fallidas sesgan el razonamiento posterior. En conjunto, estos resultados caracterizan las CoT efectivas como aquellas que *fallan menos* y respaldan un escalado en tiempo de prueba *consciente de la estructura* sobre la generación indiscriminada de CoT largas.
English
Large reasoning models (LRMs) spend substantial test-time compute on long
chain-of-thought (CoT) traces, but what *characterizes* an effective CoT
remains unclear. While prior work reports gains from lengthening CoTs and
increasing review (revisiting earlier steps) via appended *wait* tokens, recent
studies suggest that shorter thinking can outperform longer traces. We
therefore conduct a systematic evaluation across ten LRMs on math and
scientific reasoning. Contrary to the "longer-is-better" narrative, we find
that both naive CoT lengthening and increased review are associated with
*lower* accuracy.
As CoT unfolds step by step, token-level metrics can conflate verbosity with
process quality. We introduce a graph view of CoT to extract structure and
identify a single statistic-the *Failed-Step Fraction (FSF)*, the fraction of
steps in abandoned branches-that consistently outpredicts length and review
ratio for correctness across models. To probe causality, we design two
interventions. First, we rank candidate CoTs by each metric at test time, where
FSF yields the largest pass@1 gains; second, we edit CoTs to remove failed
branches, which significantly improves accuracy, indicating that failed
branches bias subsequent reasoning. Taken together, these results characterize
effective CoTs as those that *fail less* and support *structure-aware*
test-time scaling over indiscriminately generating long CoT.