Первый шаг имеет значение: переосмысление роли рефлексии в моделях рассуждений
First Try Matters: Revisiting the Role of Reflection in Reasoning Models
October 9, 2025
Авторы: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI
Аннотация
Крупные языковые модели недавно продемонстрировали значительный прогресс в способности к рассуждению, что часто связывают с их возможностью генерировать более длинные цепочки мыслей и применять рефлексивное рассуждение. Однако вклад рефлексий в улучшение производительности остается неясным. В данной работе мы систематически анализируем процессы рассуждения восьми моделей на пяти математических наборах данных. Мы сосредоточиваемся на рефлексивном поведении, когда модель уже сгенерировала ответ, но продолжает размышлять перед финализацией вывода. Наш анализ показывает, что рефлексии преимущественно носят подтверждающий характер и редко изменяют первоначальный ответ модели, что является устойчивой закономерностью для всех моделей и наборов данных. Чтобы понять роль рефлексий в обучении, мы создаем наборы данных для контролируемого тонкого обучения (SFT) с различным количеством шагов рефлексии. Мы наблюдаем, что обучение моделей на процессах с большим количеством шагов рефлексии в основном улучшает корректность первого ответа, а не способность исправлять изначально неверные ответы через рефлексии. Это побуждает нас предложить метод ранней остановки, учитывающий контекст вопроса, который повышает эффективность использования токенов на этапе вывода, останавливая процесс рассуждения, как только сгенерировано несколько правдоподобных кандидатов в ответы, тем самым сокращая ненужные шаги рефлексии. Вдохновленные этим, мы также предлагаем динамически обрезать рефлексии после появления кандидата в ответы в процессе генерации, что сокращает количество токенов, используемых для рассуждений, на 24,5% на пяти математических наборах данных при снижении точности всего на 2,9%.
English
Large language models have recently demonstrated significant gains in
reasoning ability, often attributed to their capacity to generate longer chains
of thought and engage in reflective reasoning. However, the contribution of
reflections to performance improvement remains unclear. In this paper, we
systematically analyze the rollouts of eight reasoning models on five
mathematical datasets. We focus on reflective behaviours where the model has
already produced an answer but continues reflecting before finalizing its
output. Our analysis reveals that reflections are predominantly confirmatory
and rarely alter the model's initial answer, a pattern consistent across models
and datasets. To understand the role of reflections in training, we construct
supervised fine-tuning (SFT) datasets with varying amounts of reflection steps.
We observe that training models on rollouts with more reflection steps
primarily enhances first-answer correctness rather than the ability to correct
initially wrong answers through reflections. This motivates us to propose a
question-aware early-stopping method that enhances inference-time token
efficiency by stopping the reasoning process once a few plausible candidate
answers are generated, thereby reducing unnecessary reflection steps. Motivated
by this, we further propose to dynamically truncate the reflections after a
candidate answer has appeared during generation, which reduces reasoning tokens
by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.