A Primeira Tentativa Importa: Revisitando o Papel da Reflexão em Modelos de Raciocínio

Resumo

Modelos de linguagem de grande escala recentemente demonstraram ganhos significativos em capacidade de raciocínio, frequentemente atribuídos à sua capacidade de gerar cadeias de pensamento mais longas e se engajar em raciocínio reflexivo. No entanto, a contribuição das reflexões para a melhoria de desempenho permanece pouco clara. Neste artigo, analisamos sistematicamente as execuções de oito modelos de raciocínio em cinco conjuntos de dados matemáticos. Focamos em comportamentos reflexivos em que o modelo já produziu uma resposta, mas continua refletindo antes de finalizar sua saída. Nossa análise revela que as reflexões são predominantemente confirmatórias e raramente alteram a resposta inicial do modelo, um padrão consistente entre modelos e conjuntos de dados. Para entender o papel das reflexões no treinamento, construímos conjuntos de dados de ajuste fino supervisionado (SFT) com quantidades variadas de etapas de reflexão. Observamos que treinar modelos em execuções com mais etapas de reflexão aprimora principalmente a correção da primeira resposta, em vez da capacidade de corrigir respostas inicialmente erradas por meio de reflexões. Isso nos motiva a propor um método de parada antecipada consciente da pergunta, que aumenta a eficiência de tokens durante a inferência ao interromper o processo de raciocínio assim que algumas respostas candidatas plausíveis são geradas, reduzindo assim etapas de reflexão desnecessárias. Motivados por isso, propomos ainda truncar dinamicamente as reflexões após o surgimento de uma resposta candidata durante a geração, o que reduz os tokens de raciocínio em 24,5% em cinco conjuntos de dados matemáticos, com uma queda de apenas 2,9% na precisão.

English

Large language models have recently demonstrated significant gains in reasoning ability, often attributed to their capacity to generate longer chains of thought and engage in reflective reasoning. However, the contribution of reflections to performance improvement remains unclear. In this paper, we systematically analyze the rollouts of eight reasoning models on five mathematical datasets. We focus on reflective behaviours where the model has already produced an answer but continues reflecting before finalizing its output. Our analysis reveals that reflections are predominantly confirmatory and rarely alter the model's initial answer, a pattern consistent across models and datasets. To understand the role of reflections in training, we construct supervised fine-tuning (SFT) datasets with varying amounts of reflection steps. We observe that training models on rollouts with more reflection steps primarily enhances first-answer correctness rather than the ability to correct initially wrong answers through reflections. This motivates us to propose a question-aware early-stopping method that enhances inference-time token efficiency by stopping the reasoning process once a few plausible candidate answers are generated, thereby reducing unnecessary reflection steps. Motivated by this, we further propose to dynamically truncate the reflections after a candidate answer has appeared during generation, which reduces reasoning tokens by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.

A Primeira Tentativa Importa: Revisitando o Papel da Reflexão em Modelos de Raciocínio

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

Resumo

Support