ChatPaper.aiChatPaper

Wat kenmerkt effectief redeneren? Een herziening van lengte, evaluatie en structuur van CoT

What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

September 23, 2025
Auteurs: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn
cs.AI

Samenvatting

Grote redeneermodellen (LRMs) besteden aanzienlijke rekentijd tijdens het testen aan lange ketens van gedachten (CoT), maar wat een effectieve CoT *kenmerkt*, blijft onduidelijk. Hoewel eerder onderzoek winsten rapporteert door CoTs te verlengen en het herzien (terugkeren naar eerdere stappen) te vergroten via toegevoegde *wacht*-tokens, suggereren recente studies dat korter denken langere sporen kan overtreffen. Daarom voeren we een systematische evaluatie uit over tien LRMs op wiskundig en wetenschappelijk redeneren. In tegenstelling tot het "langer-is-beter"-verhaal, vinden we dat zowel naïef verlengen van CoTs als een verhoogd herzien geassocieerd zijn met *lagere* nauwkeurigheid. Terwijl CoT stap voor stap ontvouwt, kunnen token-niveau metriek verbaalheid verwarren met proceskwaliteit. We introduceren een grafische weergave van CoT om structuur te extraheren en identificeren één statistiek—de *Failed-Step Fraction (FSF)*, het deel van stappen in verlaten takken—die consistent beter voorspelt dan lengte en herzieningsratio voor correctheid over modellen. Om causaliteit te onderzoeken, ontwerpen we twee interventies. Ten eerste rangschikken we kandidaat-CoTs op basis van elke metriek tijdens het testen, waarbij FSF de grootste pass@1-winsten oplevert; ten tweede bewerken we CoTs om mislukte takken te verwijderen, wat de nauwkeurigheid aanzienlijk verbetert, wat aangeeft dat mislukte takken het vervolgredeneren beïnvloeden. Samen karakteriseren deze resultaten effectieve CoTs als die welke *minder falen* en ondersteunen *structuurbewuste* schaling tijdens het testen in plaats van lukraak lange CoTs te genereren.
English
Large reasoning models (LRMs) spend substantial test-time compute on long chain-of-thought (CoT) traces, but what *characterizes* an effective CoT remains unclear. While prior work reports gains from lengthening CoTs and increasing review (revisiting earlier steps) via appended *wait* tokens, recent studies suggest that shorter thinking can outperform longer traces. We therefore conduct a systematic evaluation across ten LRMs on math and scientific reasoning. Contrary to the "longer-is-better" narrative, we find that both naive CoT lengthening and increased review are associated with *lower* accuracy. As CoT unfolds step by step, token-level metrics can conflate verbosity with process quality. We introduce a graph view of CoT to extract structure and identify a single statistic-the *Failed-Step Fraction (FSF)*, the fraction of steps in abandoned branches-that consistently outpredicts length and review ratio for correctness across models. To probe causality, we design two interventions. First, we rank candidate CoTs by each metric at test time, where FSF yields the largest pass@1 gains; second, we edit CoTs to remove failed branches, which significantly improves accuracy, indicating that failed branches bias subsequent reasoning. Taken together, these results characterize effective CoTs as those that *fail less* and support *structure-aware* test-time scaling over indiscriminately generating long CoT.
PDF222September 24, 2025