Detenerse cuando el razonamiento converge: salida temprana con preservación semántica para modelos de razonamiento

Resumen

Los Large Reasoning Models (LRMs) logran un alto rendimiento al generar largas cadenas de pensamiento (CoT), pero a menudo piensan en exceso, continuando razonando después de que una solución ya se ha estabilizado, desperdiciando así tokens y aumentando la latencia. Los métodos existentes de salida temprana en tiempo de inferencia se basan principalmente en señales a nivel de respuesta, como la confianza o la consistencia de prueba-respuesta, para decidir cuándo detenerse. Sin embargo, estas señales reflejan principalmente la preparación de la respuesta más que la convergencia del razonamiento: pueden activarse antes de que el modelo haya terminado de explorar o autocorregirse, provocando salidas prematuras que pueden degradar la precisión de la respuesta final y dejar la cadena de razonamiento retenida semánticamente incompleta. Identificamos la redundancia semántica a nivel de razonamiento como una señal complementaria para la salida temprana que preserva la semántica: cuando los pasos sucesivos ya no añaden progreso novedoso y en su lugar revisitan conclusiones establecidas, es probable que la trayectoria de razonamiento haya convergido. Basándonos en esta idea, proponemos PUMA, un marco plug-and-play que combina un Detector de Redundancia ligero con verificación a nivel de respuesta. El detector señala salidas candidatas semánticamente redundantes, mientras que la verificación confirma si detenerse es seguro, permitiendo a PUMA eliminar la continuación redundante mientras preserva tanto la precisión de la respuesta como un prefijo de razonamiento coherente. En cinco LRMs y cinco puntos de referencia de razonamiento desafiantes, PUMA logra una reducción promedio de tokens del 26,2% mientras preserva la precisión y la calidad retenida de CoT. Experimentos adicionales en generación de código, razonamiento visual-lingüístico zero-shot e internalización de políticas de parada aprendidas demuestran además que la redundancia a nivel de razonamiento es una señal robusta, transferible y aprendible para un razonamiento eficiente. Nuestro código está disponible en https://github.com/giovanni-vaccarino/PUMA.

English

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.