Detenerse cuando el razonamiento converge: salida temprana con preservación semántica para modelos de razonamiento
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models
May 17, 2026
Autores: Dehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng
cs.AI
Resumen
Los Large Reasoning Models (LRMs) logran un alto rendimiento al generar largas cadenas de pensamiento (CoT), pero a menudo piensan en exceso, continuando razonando después de que una solución ya se ha estabilizado, desperdiciando así tokens y aumentando la latencia. Los métodos existentes de salida temprana en tiempo de inferencia se basan principalmente en señales a nivel de respuesta, como la confianza o la consistencia de prueba-respuesta, para decidir cuándo detenerse. Sin embargo, estas señales reflejan principalmente la preparación de la respuesta más que la convergencia del razonamiento: pueden activarse antes de que el modelo haya terminado de explorar o autocorregirse, provocando salidas prematuras que pueden degradar la precisión de la respuesta final y dejar la cadena de razonamiento retenida semánticamente incompleta. Identificamos la redundancia semántica a nivel de razonamiento como una señal complementaria para la salida temprana que preserva la semántica: cuando los pasos sucesivos ya no añaden progreso novedoso y en su lugar revisitan conclusiones establecidas, es probable que la trayectoria de razonamiento haya convergido. Basándonos en esta idea, proponemos PUMA, un marco plug-and-play que combina un Detector de Redundancia ligero con verificación a nivel de respuesta. El detector señala salidas candidatas semánticamente redundantes, mientras que la verificación confirma si detenerse es seguro, permitiendo a PUMA eliminar la continuación redundante mientras preserva tanto la precisión de la respuesta como un prefijo de razonamiento coherente. En cinco LRMs y cinco puntos de referencia de razonamiento desafiantes, PUMA logra una reducción promedio de tokens del 26,2% mientras preserva la precisión y la calidad retenida de CoT. Experimentos adicionales en generación de código, razonamiento visual-lingüístico zero-shot e internalización de políticas de parada aprendidas demuestran además que la redundancia a nivel de razonamiento es una señal robusta, transferible y aprendible para un razonamiento eficiente. Nuestro código está disponible en https://github.com/giovanni-vaccarino/PUMA.
English
Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.