ChatPaper.aiChatPaper

Il Primo Tentativo Conta: Rivalutare il Ruolo della Riflessione nei Modelli di Ragionamento

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

October 9, 2025
Autori: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI

Abstract

I grandi modelli linguistici hanno recentemente dimostrato significativi miglioramenti nelle capacità di ragionamento, spesso attribuiti alla loro capacità di generare catene di pensiero più lunghe e di impegnarsi in ragionamenti riflessivi. Tuttavia, il contributo delle riflessioni al miglioramento delle prestazioni rimane poco chiaro. In questo articolo, analizziamo sistematicamente le esecuzioni di otto modelli di ragionamento su cinque dataset matematici. Ci concentriamo sui comportamenti riflessivi in cui il modello ha già prodotto una risposta ma continua a riflettere prima di finalizzare il suo output. La nostra analisi rivela che le riflessioni sono prevalentemente confermative e raramente alterano la risposta iniziale del modello, un modello coerente tra i modelli e i dataset. Per comprendere il ruolo delle riflessioni nell'addestramento, costruiamo dataset di fine-tuning supervisionato (SFT) con quantità variabili di passaggi di riflessione. Osserviamo che l'addestramento di modelli su esecuzioni con più passaggi di riflessione migliora principalmente la correttezza della prima risposta piuttosto che la capacità di correggere risposte inizialmente errate attraverso le riflessioni. Questo ci motiva a proporre un metodo di early-stop consapevole della domanda che migliora l'efficienza dei token durante l'inferenza interrompendo il processo di ragionamento una volta generati alcuni candidati plausibili, riducendo così i passaggi di riflessione non necessari. Motivati da ciò, proponiamo ulteriormente di troncare dinamicamente le riflessioni dopo che è apparso un candidato durante la generazione, riducendo i token di ragionamento del 24,5% su cinque dataset matematici, con un calo di precisione del 2,9%.
English
Large language models have recently demonstrated significant gains in reasoning ability, often attributed to their capacity to generate longer chains of thought and engage in reflective reasoning. However, the contribution of reflections to performance improvement remains unclear. In this paper, we systematically analyze the rollouts of eight reasoning models on five mathematical datasets. We focus on reflective behaviours where the model has already produced an answer but continues reflecting before finalizing its output. Our analysis reveals that reflections are predominantly confirmatory and rarely alter the model's initial answer, a pattern consistent across models and datasets. To understand the role of reflections in training, we construct supervised fine-tuning (SFT) datasets with varying amounts of reflection steps. We observe that training models on rollouts with more reflection steps primarily enhances first-answer correctness rather than the ability to correct initially wrong answers through reflections. This motivates us to propose a question-aware early-stopping method that enhances inference-time token efficiency by stopping the reasoning process once a few plausible candidate answers are generated, thereby reducing unnecessary reflection steps. Motivated by this, we further propose to dynamically truncate the reflections after a candidate answer has appeared during generation, which reduces reasoning tokens by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.
PDF244October 10, 2025