La première tentative compte : réexaminer le rôle de la réflexion dans les modèles de raisonnement
First Try Matters: Revisiting the Role of Reflection in Reasoning Models
October 9, 2025
papers.authors: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI
papers.abstract
Les grands modèles de langage ont récemment démontré des progrès significatifs en matière de capacité de raisonnement, souvent attribués à leur aptitude à générer des chaînes de pensée plus longues et à s'engager dans un raisonnement réflexif. Cependant, la contribution des réflexions à l'amélioration des performances reste incertaine. Dans cet article, nous analysons systématiquement les déploiements de huit modèles de raisonnement sur cinq ensembles de données mathématiques. Nous nous concentrons sur les comportements réflexifs où le modèle a déjà produit une réponse mais continue à réfléchir avant de finaliser sa sortie. Notre analyse révèle que les réflexions sont principalement confirmatoires et modifient rarement la réponse initiale du modèle, un schéma cohérent à travers les modèles et les ensembles de données. Pour comprendre le rôle des réflexions dans l'entraînement, nous construisons des ensembles de données de fine-tuning supervisé (SFT) avec des quantités variables d'étapes de réflexion. Nous observons que l'entraînement des modèles sur des déploiements avec plus d'étapes de réflexion améliore principalement la justesse de la première réponse plutôt que la capacité à corriger des réponses initialement erronées grâce aux réflexions. Cela nous motive à proposer une méthode d'arrêt précoce adaptée à la question, qui améliore l'efficacité des tokens lors de l'inférence en arrêtant le processus de raisonnement une fois que quelques réponses candidates plausibles sont générées, réduisant ainsi les étapes de réflexion inutiles. Motivés par cela, nous proposons en outre de tronquer dynamiquement les réflexions après l'apparition d'une réponse candidate lors de la génération, ce qui réduit les tokens de raisonnement de 24,5 % sur cinq ensembles de données mathématiques, avec une baisse de précision de seulement 2,9 %.
English
Large language models have recently demonstrated significant gains in
reasoning ability, often attributed to their capacity to generate longer chains
of thought and engage in reflective reasoning. However, the contribution of
reflections to performance improvement remains unclear. In this paper, we
systematically analyze the rollouts of eight reasoning models on five
mathematical datasets. We focus on reflective behaviours where the model has
already produced an answer but continues reflecting before finalizing its
output. Our analysis reveals that reflections are predominantly confirmatory
and rarely alter the model's initial answer, a pattern consistent across models
and datasets. To understand the role of reflections in training, we construct
supervised fine-tuning (SFT) datasets with varying amounts of reflection steps.
We observe that training models on rollouts with more reflection steps
primarily enhances first-answer correctness rather than the ability to correct
initially wrong answers through reflections. This motivates us to propose a
question-aware early-stopping method that enhances inference-time token
efficiency by stopping the reasoning process once a few plausible candidate
answers are generated, thereby reducing unnecessary reflection steps. Motivated
by this, we further propose to dynamically truncate the reflections after a
candidate answer has appeared during generation, which reduces reasoning tokens
by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.