¿Son los Modelos de Razonamiento a Gran Escala Interrumpibles?
Are Large Reasoning Models Interruptible?
October 13, 2025
Autores: Tsung-Han Wu, Mihran Miroyan, David M. Chan, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) destacan en razonamiento complejo, pero tradicionalmente se evalúan en entornos estáticos o de "mundo congelado": se asume que las respuestas del modelo son instantáneas y que el contexto de una solicitud permanece inmutable durante la duración de la respuesta. Aunque esto es generalmente cierto para tareas a corto plazo, la suposición del "mundo congelado" se desmorona en tareas de razonamiento modernas, como la programación asistida, donde los modelos pueden tardar horas en analizar problemas y el código puede cambiar drásticamente desde el momento en que el modelo comienza a pensar hasta que produce su resultado final. En este trabajo, cuestionamos la suposición del mundo congelado y evaluamos la robustez de los LRMs bajo dos escenarios dinámicos realistas: interrupciones, que prueban la calidad de las salidas parciales del modelo con un presupuesto limitado, y contexto dinámico, que evalúa la adaptación del modelo a cambios durante su ejecución. En benchmarks de matemáticas y programación que requieren razonamiento extenso, las evaluaciones estáticas sobreestiman consistentemente la robustez: incluso los LRMs de vanguardia, que logran una alta precisión en entornos estáticos, pueden fallar de manera impredecible cuando se interrumpen o se exponen a un contexto cambiante, con un rendimiento que cae hasta un 60% cuando se introducen actualizaciones tarde en el proceso de razonamiento. Nuestro análisis revela además varios modos de fallo novedosos, incluyendo la fuga de razonamiento, donde los modelos integran el razonamiento en su respuesta final cuando se interrumpen; el pánico, donde bajo presión de tiempo los modelos abandonan el razonamiento por completo y devuelven respuestas incorrectas; y la autoduda, donde el rendimiento se degrada al incorporar información actualizada.
English
Large Reasoning Models (LRMs) excel at complex reasoning but are
traditionally evaluated in static, "frozen world" settings: model responses are
assumed to be instantaneous, and the context of a request is presumed to be
immutable over the duration of the response. While generally true for
short-term tasks, the "frozen world" assumption breaks down in modern reasoning
tasks such as assistive programming, where models may take hours to think
through problems and code may change dramatically from the time the model
starts thinking to the model's final output. In this work, we challenge the
frozen world assumption and evaluate LRM robustness under two realistic dynamic
scenarios: interruptions, which test the quality of the model's partial outputs
on a limited budget, and dynamic context, which tests model adaptation to
in-flight changes. Across mathematics and programming benchmarks that require
long-form reasoning, static evaluations consistently overestimate robustness:
even state-of-the-art LRMs, which achieve high accuracy in static settings, can
fail unpredictably when interrupted or exposed to changing context, with
performance dropping by up to 60% when updates are introduced late in the
reasoning process. Our analysis further reveals several novel failure modes,
including reasoning leakage, where models fold the reasoning into their final
answer when interrupted; panic, where under time pressure models abandon
reasoning entirely and return incorrect answers; and self-doubt, where
performance degrades while incorporating updated information.