El Primer Intento Importa: Revisando el Papel de la Reflexión en los Modelos de Razonamiento
First Try Matters: Revisiting the Role of Reflection in Reasoning Models
October 9, 2025
Autores: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing
cs.AI
Resumen
Los modelos de lenguaje de gran escala han demostrado recientemente avances significativos en la capacidad de razonamiento, atribuidos frecuentemente a su habilidad para generar cadenas de pensamiento más largas y participar en razonamientos reflexivos. Sin embargo, la contribución de las reflexiones a la mejora del rendimiento sigue siendo poco clara. En este artículo, analizamos sistemáticamente las ejecuciones de ocho modelos de razonamiento en cinco conjuntos de datos matemáticos. Nos enfocamos en comportamientos reflexivos en los que el modelo ya ha producido una respuesta pero continúa reflexionando antes de finalizar su salida. Nuestro análisis revela que las reflexiones son predominantemente confirmatorias y rara vez alteran la respuesta inicial del modelo, un patrón consistente en todos los modelos y conjuntos de datos. Para comprender el papel de las reflexiones en el entrenamiento, construimos conjuntos de datos de ajuste fino supervisado (SFT) con cantidades variables de pasos de reflexión. Observamos que entrenar modelos en ejecuciones con más pasos de reflexión mejora principalmente la corrección de la primera respuesta, en lugar de la capacidad de corregir respuestas inicialmente incorrectas a través de reflexiones. Esto nos motiva a proponer un método de detención temprana consciente de la pregunta que mejora la eficiencia de tokens en tiempo de inferencia al detener el proceso de razonamiento una vez que se generan algunas respuestas candidatas plausibles, reduciendo así los pasos de reflexión innecesarios. Motivados por esto, proponemos además truncar dinámicamente las reflexiones después de que aparezca una respuesta candidata durante la generación, lo que reduce los tokens de razonamiento en un 24.5% en cinco conjuntos de datos matemáticos, con una caída de precisión de solo el 2.9%.
English
Large language models have recently demonstrated significant gains in
reasoning ability, often attributed to their capacity to generate longer chains
of thought and engage in reflective reasoning. However, the contribution of
reflections to performance improvement remains unclear. In this paper, we
systematically analyze the rollouts of eight reasoning models on five
mathematical datasets. We focus on reflective behaviours where the model has
already produced an answer but continues reflecting before finalizing its
output. Our analysis reveals that reflections are predominantly confirmatory
and rarely alter the model's initial answer, a pattern consistent across models
and datasets. To understand the role of reflections in training, we construct
supervised fine-tuning (SFT) datasets with varying amounts of reflection steps.
We observe that training models on rollouts with more reflection steps
primarily enhances first-answer correctness rather than the ability to correct
initially wrong answers through reflections. This motivates us to propose a
question-aware early-stopping method that enhances inference-time token
efficiency by stopping the reasoning process once a few plausible candidate
answers are generated, thereby reducing unnecessary reflection steps. Motivated
by this, we further propose to dynamically truncate the reflections after a
candidate answer has appeared during generation, which reduces reasoning tokens
by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.