ChatPaper.aiChatPaper

Qu'est-ce qui caractérise un raisonnement efficace ? Réexamen de la longueur, de la révision et de la structure des chaînes de pensée (CoT)

What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

September 23, 2025
papers.authors: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn
cs.AI

papers.abstract

Les grands modèles de raisonnement (LRMs) consacrent une part importante de leur temps de calcul à des traces longues de chaînes de pensée (CoT), mais ce qui *caractérise* une CoT efficace reste flou. Alors que des travaux antérieurs rapportent des gains en allongeant les CoT et en augmentant la révision (revisiter les étapes précédentes) via des jetons *wait* ajoutés, des études récentes suggèrent que des pensées plus courtes peuvent surpasser des traces plus longues. Nous menons donc une évaluation systématique sur dix LRMs pour des tâches de raisonnement mathématique et scientifique. Contrairement au récit "plus long est meilleur", nous constatons que l'allongement naïf des CoT et l'augmentation de la révision sont associés à une précision *moins élevée*. Alors que la CoT se déroule étape par étape, les métriques au niveau des jetons peuvent confondre la verbosité avec la qualité du processus. Nous introduisons une vue graphique de la CoT pour en extraire la structure et identifions une seule statistique - la *Fraction d'Étapes Échouées (FSF)*, la proportion d'étapes dans les branches abandonnées - qui prédit systématiquement mieux la justesse que la longueur et le taux de révision, et ce, à travers les modèles. Pour explorer la causalité, nous concevons deux interventions. Premièrement, nous classons les CoT candidates selon chaque métrique au moment du test, où la FSF produit les gains les plus importants en pass@1 ; deuxièmement, nous modifions les CoT pour supprimer les branches échouées, ce qui améliore significativement la précision, indiquant que les branches échouées biaisent le raisonnement ultérieur. Pris ensemble, ces résultats caractérisent les CoT efficaces comme celles qui *échouent moins* et soutiennent une mise à l'échelle au moment du test *consciente de la structure* plutôt qu'une génération indiscriminée de CoT longues.
English
Large reasoning models (LRMs) spend substantial test-time compute on long chain-of-thought (CoT) traces, but what *characterizes* an effective CoT remains unclear. While prior work reports gains from lengthening CoTs and increasing review (revisiting earlier steps) via appended *wait* tokens, recent studies suggest that shorter thinking can outperform longer traces. We therefore conduct a systematic evaluation across ten LRMs on math and scientific reasoning. Contrary to the "longer-is-better" narrative, we find that both naive CoT lengthening and increased review are associated with *lower* accuracy. As CoT unfolds step by step, token-level metrics can conflate verbosity with process quality. We introduce a graph view of CoT to extract structure and identify a single statistic-the *Failed-Step Fraction (FSF)*, the fraction of steps in abandoned branches-that consistently outpredicts length and review ratio for correctness across models. To probe causality, we design two interventions. First, we rank candidate CoTs by each metric at test time, where FSF yields the largest pass@1 gains; second, we edit CoTs to remove failed branches, which significantly improves accuracy, indicating that failed branches bias subsequent reasoning. Taken together, these results characterize effective CoTs as those that *fail less* and support *structure-aware* test-time scaling over indiscriminately generating long CoT.
PDF222September 24, 2025