El Primer Intento Importa: Revisando el Papel de la Reflexión en los Modelos de Razonamiento

Resumen

Los modelos de lenguaje de gran escala han demostrado recientemente avances significativos en la capacidad de razonamiento, atribuidos frecuentemente a su habilidad para generar cadenas de pensamiento más largas y participar en razonamientos reflexivos. Sin embargo, la contribución de las reflexiones a la mejora del rendimiento sigue siendo poco clara. En este artículo, analizamos sistemáticamente las ejecuciones de ocho modelos de razonamiento en cinco conjuntos de datos matemáticos. Nos enfocamos en comportamientos reflexivos en los que el modelo ya ha producido una respuesta pero continúa reflexionando antes de finalizar su salida. Nuestro análisis revela que las reflexiones son predominantemente confirmatorias y rara vez alteran la respuesta inicial del modelo, un patrón consistente en todos los modelos y conjuntos de datos. Para comprender el papel de las reflexiones en el entrenamiento, construimos conjuntos de datos de ajuste fino supervisado (SFT) con cantidades variables de pasos de reflexión. Observamos que entrenar modelos en ejecuciones con más pasos de reflexión mejora principalmente la corrección de la primera respuesta, en lugar de la capacidad de corregir respuestas inicialmente incorrectas a través de reflexiones. Esto nos motiva a proponer un método de detención temprana consciente de la pregunta que mejora la eficiencia de tokens en tiempo de inferencia al detener el proceso de razonamiento una vez que se generan algunas respuestas candidatas plausibles, reduciendo así los pasos de reflexión innecesarios. Motivados por esto, proponemos además truncar dinámicamente las reflexiones después de que aparezca una respuesta candidata durante la generación, lo que reduce los tokens de razonamiento en un 24.5% en cinco conjuntos de datos matemáticos, con una caída de precisión de solo el 2.9%.

English

Large language models have recently demonstrated significant gains in reasoning ability, often attributed to their capacity to generate longer chains of thought and engage in reflective reasoning. However, the contribution of reflections to performance improvement remains unclear. In this paper, we systematically analyze the rollouts of eight reasoning models on five mathematical datasets. We focus on reflective behaviours where the model has already produced an answer but continues reflecting before finalizing its output. Our analysis reveals that reflections are predominantly confirmatory and rarely alter the model's initial answer, a pattern consistent across models and datasets. To understand the role of reflections in training, we construct supervised fine-tuning (SFT) datasets with varying amounts of reflection steps. We observe that training models on rollouts with more reflection steps primarily enhances first-answer correctness rather than the ability to correct initially wrong answers through reflections. This motivates us to propose a question-aware early-stopping method that enhances inference-time token efficiency by stopping the reasoning process once a few plausible candidate answers are generated, thereby reducing unnecessary reflection steps. Motivated by this, we further propose to dynamically truncate the reflections after a candidate answer has appeared during generation, which reduces reasoning tokens by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.

El Primer Intento Importa: Revisando el Papel de la Reflexión en los Modelos de Razonamiento

First Try Matters: Revisiting the Role of Reflection in Reasoning Models

Resumen

Support