Первый шаг имеет значение: переосмысление роли рефлексии в моделях рассуждений

Аннотация

Крупные языковые модели недавно продемонстрировали значительный прогресс в способности к рассуждению, что часто связывают с их возможностью генерировать более длинные цепочки мыслей и применять рефлексивное рассуждение. Однако вклад рефлексий в улучшение производительности остается неясным. В данной работе мы систематически анализируем процессы рассуждения восьми моделей на пяти математических наборах данных. Мы сосредоточиваемся на рефлексивном поведении, когда модель уже сгенерировала ответ, но продолжает размышлять перед финализацией вывода. Наш анализ показывает, что рефлексии преимущественно носят подтверждающий характер и редко изменяют первоначальный ответ модели, что является устойчивой закономерностью для всех моделей и наборов данных. Чтобы понять роль рефлексий в обучении, мы создаем наборы данных для контролируемого тонкого обучения (SFT) с различным количеством шагов рефлексии. Мы наблюдаем, что обучение моделей на процессах с большим количеством шагов рефлексии в основном улучшает корректность первого ответа, а не способность исправлять изначально неверные ответы через рефлексии. Это побуждает нас предложить метод ранней остановки, учитывающий контекст вопроса, который повышает эффективность использования токенов на этапе вывода, останавливая процесс рассуждения, как только сгенерировано несколько правдоподобных кандидатов в ответы, тем самым сокращая ненужные шаги рефлексии. Вдохновленные этим, мы также предлагаем динамически обрезать рефлексии после появления кандидата в ответы в процессе генерации, что сокращает количество токенов, используемых для рассуждений, на 24,5% на пяти математических наборах данных при снижении точности всего на 2,9%.

English

Large language models have recently demonstrated significant gains in reasoning ability, often attributed to their capacity to generate longer chains of thought and engage in reflective reasoning. However, the contribution of reflections to performance improvement remains unclear. In this paper, we systematically analyze the rollouts of eight reasoning models on five mathematical datasets. We focus on reflective behaviours where the model has already produced an answer but continues reflecting before finalizing its output. Our analysis reveals that reflections are predominantly confirmatory and rarely alter the model's initial answer, a pattern consistent across models and datasets. To understand the role of reflections in training, we construct supervised fine-tuning (SFT) datasets with varying amounts of reflection steps. We observe that training models on rollouts with more reflection steps primarily enhances first-answer correctness rather than the ability to correct initially wrong answers through reflections. This motivates us to propose a question-aware early-stopping method that enhances inference-time token efficiency by stopping the reasoning process once a few plausible candidate answers are generated, thereby reducing unnecessary reflection steps. Motivated by this, we further propose to dynamically truncate the reflections after a candidate answer has appeared during generation, which reduces reasoning tokens by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.

Первый шаг имеет значение: переосмысление роли рефлексии в моделях рассуждений

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

Аннотация

Support