A Primeira Tentativa Importa: Revisitando o Papel da Reflexão em Modelos de Raciocínio
First Try Matters: Revisiting the Role of Reflection in Reasoning Models
October 9, 2025
Autores: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI
Resumo
Modelos de linguagem de grande escala recentemente demonstraram ganhos significativos em capacidade de raciocínio, frequentemente atribuídos à sua capacidade de gerar cadeias de pensamento mais longas e se engajar em raciocínio reflexivo. No entanto, a contribuição das reflexões para a melhoria de desempenho permanece pouco clara. Neste artigo, analisamos sistematicamente as execuções de oito modelos de raciocínio em cinco conjuntos de dados matemáticos. Focamos em comportamentos reflexivos em que o modelo já produziu uma resposta, mas continua refletindo antes de finalizar sua saída. Nossa análise revela que as reflexões são predominantemente confirmatórias e raramente alteram a resposta inicial do modelo, um padrão consistente entre modelos e conjuntos de dados. Para entender o papel das reflexões no treinamento, construímos conjuntos de dados de ajuste fino supervisionado (SFT) com quantidades variadas de etapas de reflexão. Observamos que treinar modelos em execuções com mais etapas de reflexão aprimora principalmente a correção da primeira resposta, em vez da capacidade de corrigir respostas inicialmente erradas por meio de reflexões. Isso nos motiva a propor um método de parada antecipada consciente da pergunta, que aumenta a eficiência de tokens durante a inferência ao interromper o processo de raciocínio assim que algumas respostas candidatas plausíveis são geradas, reduzindo assim etapas de reflexão desnecessárias. Motivados por isso, propomos ainda truncar dinamicamente as reflexões após o surgimento de uma resposta candidata durante a geração, o que reduz os tokens de raciocínio em 24,5% em cinco conjuntos de dados matemáticos, com uma queda de apenas 2,9% na precisão.
English
Large language models have recently demonstrated significant gains in
reasoning ability, often attributed to their capacity to generate longer chains
of thought and engage in reflective reasoning. However, the contribution of
reflections to performance improvement remains unclear. In this paper, we
systematically analyze the rollouts of eight reasoning models on five
mathematical datasets. We focus on reflective behaviours where the model has
already produced an answer but continues reflecting before finalizing its
output. Our analysis reveals that reflections are predominantly confirmatory
and rarely alter the model's initial answer, a pattern consistent across models
and datasets. To understand the role of reflections in training, we construct
supervised fine-tuning (SFT) datasets with varying amounts of reflection steps.
We observe that training models on rollouts with more reflection steps
primarily enhances first-answer correctness rather than the ability to correct
initially wrong answers through reflections. This motivates us to propose a
question-aware early-stopping method that enhances inference-time token
efficiency by stopping the reasoning process once a few plausible candidate
answers are generated, thereby reducing unnecessary reflection steps. Motivated
by this, we further propose to dynamically truncate the reflections after a
candidate answer has appeared during generation, which reduces reasoning tokens
by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.