TERMINATOR: Aprendizaje de Puntos de Salida Óptimos para la Detención Temprana en el Razonamiento de Cadena de Pensamiento

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs) logran un rendimiento impresionante en tareas de razonamiento complejo mediante el razonamiento en Cadena de Pensamiento (CoT), lo que les permite generar tokens de pensamiento intermedios antes de llegar a la respuesta final. Sin embargo, los LRMs a menudo sufren de una sobre-reflexión significativa, gastando un tiempo de cómputo excesivo incluso después de que la respuesta se ha generado prematuramente. Trabajos previos han identificado la existencia de una longitud de razonamiento óptima, de modo que truncar el razonamiento en este punto acorta significativamente las salidas CoT con prácticamente ningún cambio en el rendimiento. No obstante, determinar las longitudes CoT óptimas para conjuntos de datos prácticos es altamente no trivial, ya que dependen completamente de la tarea y del modelo. En este artículo, abordamos precisamente esto y diseñamos TERMINATOR, una estrategia de salida temprana para LRMs durante la inferencia para mitigar la sobre-reflexión. La idea central que sustenta TERMINATOR es que la primera aparición de la respuesta final de un LRM suele ser predecible, y aprovechamos estas posiciones de primera respuesta para crear un nuevo conjunto de datos de longitudes de razonamiento óptimas para entrenar a TERMINATOR. Impulsado por este enfoque, TERMINATOR logra reducciones significativas en las longitudes CoT del 14% al 55% en promedio en cuatro conjuntos de datos prácticos y desafiantes: MATH-500, AIME 2025, HumanEval y GPQA, superando además a los métodos actuales más avanzados.

English

Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.

TERMINATOR: Aprendizaje de Puntos de Salida Óptimos para la Detención Temprana en el Razonamiento de Cadena de Pensamiento

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Resumen

Support