ChatPaper.aiChatPaper

Что характеризует эффективное рассуждение? Переосмысление длины, анализа и структуры цепочки рассуждений (CoT)

What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

September 23, 2025
Авторы: Yunzhen Feng, Julia Kempe, Cheng Zhang, Parag Jain, Anthony Hartshorn
cs.AI

Аннотация

Крупные модели рассуждений (LRMs) тратят значительные вычислительные ресурсы на длинные цепочки рассуждений (CoT) во время тестирования, однако то, что *характеризует* эффективный CoT, остается неясным. Хотя предыдущие работы сообщают о преимуществах удлинения CoT и увеличения пересмотра (возвращения к предыдущим шагам) с помощью добавленных *wait*-токенов, недавние исследования показывают, что более короткие рассуждения могут превосходить длинные цепочки. Поэтому мы проводим систематическую оценку на десяти LRM в задачах математического и научного рассуждения. Вопреки нарративу "чем длиннее, тем лучше", мы обнаруживаем, что как наивное удлинение CoT, так и увеличение пересмотра связаны с *снижением* точности. По мере того как CoT разворачивается шаг за шагом, метрики на уровне токенов могут смешивать многословность с качеством процесса. Мы вводим графовое представление CoT для извлечения структуры и идентифицируем единственную статистику — *Долю Неудачных Шагов (FSF)*, долю шагов в заброшенных ветвях, — которая последовательно превосходит длину и коэффициент пересмотра в предсказании правильности результатов для различных моделей. Чтобы исследовать причинно-следственные связи, мы разрабатываем два вмешательства. Во-первых, мы ранжируем кандидатов CoT по каждой метрике во время тестирования, где FSF дает наибольший прирост pass@1; во-вторых, мы редактируем CoT, удаляя неудачные ветви, что значительно повышает точность, указывая на то, что неудачные ветви искажают последующие рассуждения. В совокупности эти результаты характеризуют эффективные CoT как те, которые *ошибаются реже*, и поддерживают *структурно-осознанное* масштабирование во время тестирования вместо бездумного генерации длинных CoT.
English
Large reasoning models (LRMs) spend substantial test-time compute on long chain-of-thought (CoT) traces, but what *characterizes* an effective CoT remains unclear. While prior work reports gains from lengthening CoTs and increasing review (revisiting earlier steps) via appended *wait* tokens, recent studies suggest that shorter thinking can outperform longer traces. We therefore conduct a systematic evaluation across ten LRMs on math and scientific reasoning. Contrary to the "longer-is-better" narrative, we find that both naive CoT lengthening and increased review are associated with *lower* accuracy. As CoT unfolds step by step, token-level metrics can conflate verbosity with process quality. We introduce a graph view of CoT to extract structure and identify a single statistic-the *Failed-Step Fraction (FSF)*, the fraction of steps in abandoned branches-that consistently outpredicts length and review ratio for correctness across models. To probe causality, we design two interventions. First, we rank candidate CoTs by each metric at test time, where FSF yields the largest pass@1 gains; second, we edit CoTs to remove failed branches, which significantly improves accuracy, indicating that failed branches bias subsequent reasoning. Taken together, these results characterize effective CoTs as those that *fail less* and support *structure-aware* test-time scaling over indiscriminately generating long CoT.
PDF222September 24, 2025