Erster Versuch zählt: Die Rolle der Reflexion in Reasoning-Modellen neu betrachtet
First Try Matters: Revisiting the Role of Reflection in Reasoning Models
October 9, 2025
papers.authors: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI
papers.abstract
Große Sprachmodelle haben in letzter Zeit bedeutende Fortschritte in ihrer Fähigkeit zum logischen Denken gezeigt, was oft auf ihre Kapazität zurückgeführt wird, längere Gedankenketten zu generieren und reflektierendes Denken zu betreiben. Der Beitrag solcher Reflexionen zur Leistungssteigerung bleibt jedoch unklar. In diesem Papier analysieren wir systematisch die Abläufe von acht Denkmodellen auf fünf mathematischen Datensätzen. Wir konzentrieren uns dabei auf reflektierende Verhaltensweisen, bei denen das Modell bereits eine Antwort erzeugt hat, aber weiter reflektiert, bevor es seine endgültige Ausgabe festlegt. Unsere Analyse zeigt, dass Reflexionen überwiegend bestätigend sind und selten die ursprüngliche Antwort des Modells verändern, ein Muster, das sich über Modelle und Datensätze hinweg konsistent zeigt. Um die Rolle von Reflexionen im Training zu verstehen, erstellen wir Supervised Fine-Tuning (SFT)-Datensätze mit unterschiedlich vielen Reflexionsschritten. Wir beobachten, dass das Training von Modellen mit Abläufen, die mehr Reflexionsschritte enthalten, hauptsächlich die Korrektheit der ersten Antwort verbessert und nicht die Fähigkeit, anfänglich falsche Antworten durch Reflexionen zu korrigieren. Dies motiviert uns, eine fragebewusste Early-Stopping-Methode vorzuschlagen, die die Token-Effizienz zur Inferenzzeit verbessert, indem der Denkprozess gestoppt wird, sobald einige plausible Kandidatenantworten generiert wurden, wodurch unnötige Reflexionsschritte reduziert werden. Darüber hinaus schlagen wir vor, die Reflexionen dynamisch abzuschneiden, sobald eine Kandidatenantwort während der Generierung aufgetreten ist. Dies reduziert die für das Denken benötigten Tokens um 24,5 % über fünf mathematische Datensätze hinweg, bei einem Genauigkeitsverlust von nur 2,9 %.
English
Large language models have recently demonstrated significant gains in
reasoning ability, often attributed to their capacity to generate longer chains
of thought and engage in reflective reasoning. However, the contribution of
reflections to performance improvement remains unclear. In this paper, we
systematically analyze the rollouts of eight reasoning models on five
mathematical datasets. We focus on reflective behaviours where the model has
already produced an answer but continues reflecting before finalizing its
output. Our analysis reveals that reflections are predominantly confirmatory
and rarely alter the model's initial answer, a pattern consistent across models
and datasets. To understand the role of reflections in training, we construct
supervised fine-tuning (SFT) datasets with varying amounts of reflection steps.
We observe that training models on rollouts with more reflection steps
primarily enhances first-answer correctness rather than the ability to correct
initially wrong answers through reflections. This motivates us to propose a
question-aware early-stopping method that enhances inference-time token
efficiency by stopping the reasoning process once a few plausible candidate
answers are generated, thereby reducing unnecessary reflection steps. Motivated
by this, we further propose to dynamically truncate the reflections after a
candidate answer has appeared during generation, which reduces reasoning tokens
by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.