¿Son los Modelos de Razonamiento a Gran Escala Interrumpibles?

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) destacan en razonamiento complejo, pero tradicionalmente se evalúan en entornos estáticos o de "mundo congelado": se asume que las respuestas del modelo son instantáneas y que el contexto de una solicitud permanece inmutable durante la duración de la respuesta. Aunque esto es generalmente cierto para tareas a corto plazo, la suposición del "mundo congelado" se desmorona en tareas de razonamiento modernas, como la programación asistida, donde los modelos pueden tardar horas en analizar problemas y el código puede cambiar drásticamente desde el momento en que el modelo comienza a pensar hasta que produce su resultado final. En este trabajo, cuestionamos la suposición del mundo congelado y evaluamos la robustez de los LRMs bajo dos escenarios dinámicos realistas: interrupciones, que prueban la calidad de las salidas parciales del modelo con un presupuesto limitado, y contexto dinámico, que evalúa la adaptación del modelo a cambios durante su ejecución. En benchmarks de matemáticas y programación que requieren razonamiento extenso, las evaluaciones estáticas sobreestiman consistentemente la robustez: incluso los LRMs de vanguardia, que logran una alta precisión en entornos estáticos, pueden fallar de manera impredecible cuando se interrumpen o se exponen a un contexto cambiante, con un rendimiento que cae hasta un 60% cuando se introducen actualizaciones tarde en el proceso de razonamiento. Nuestro análisis revela además varios modos de fallo novedosos, incluyendo la fuga de razonamiento, donde los modelos integran el razonamiento en su respuesta final cuando se interrumpen; el pánico, donde bajo presión de tiempo los modelos abandonan el razonamiento por completo y devuelven respuestas incorrectas; y la autoduda, donde el rendimiento se degrada al incorporar información actualizada.

English

Large Reasoning Models (LRMs) excel at complex reasoning but are traditionally evaluated in static, "frozen world" settings: model responses are assumed to be instantaneous, and the context of a request is presumed to be immutable over the duration of the response. While generally true for short-term tasks, the "frozen world" assumption breaks down in modern reasoning tasks such as assistive programming, where models may take hours to think through problems and code may change dramatically from the time the model starts thinking to the model's final output. In this work, we challenge the frozen world assumption and evaluate LRM robustness under two realistic dynamic scenarios: interruptions, which test the quality of the model's partial outputs on a limited budget, and dynamic context, which tests model adaptation to in-flight changes. Across mathematics and programming benchmarks that require long-form reasoning, static evaluations consistently overestimate robustness: even state-of-the-art LRMs, which achieve high accuracy in static settings, can fail unpredictably when interrupted or exposed to changing context, with performance dropping by up to 60% when updates are introduced late in the reasoning process. Our analysis further reveals several novel failure modes, including reasoning leakage, where models fold the reasoning into their final answer when interrupted; panic, where under time pressure models abandon reasoning entirely and return incorrect answers; and self-doubt, where performance degrades while incorporating updated information.

¿Son los Modelos de Razonamiento a Gran Escala Interrumpibles?

Are Large Reasoning Models Interruptible?

Resumen

Support