Cambio en el Razonamiento: Cómo el Contexto Acorta Silenciosamente el Razonamiento de los LLM

Resumen

Los grandes modelos de lenguaje (LLM) que exhiben comportamientos de escalado durante la prueba, como trazas de razonamiento extendidas y autoverificación, han demostrado un rendimiento notable en tareas complejas de razonamiento a largo plazo. Sin embargo, la robustez de estos comportamientos de razonamiento sigue estando poco explorada. Para investigarlo, realizamos una evaluación sistemática de múltiples modelos de razonamiento en tres escenarios: (1) problemas aumentados con contexto irrelevante extenso; (2) entornos conversacionales multitarea con tareas independientes; y (3) problemas presentados como subtarea dentro de una tarea compleja. Observamos un fenómeno interesante: los modelos de razonamiento tienden a producir trazas de razonamiento mucho más cortas (hasta un 50%) para el mismo problema bajo diferentes condiciones de contexto, en comparación con las trazas producidas cuando el problema se presenta de forma aislada. Un análisis más granular revela que esta compresión está asociada con una disminución de los comportamientos de autoverificación y gestión de la incertidumbre, como la doble verificación. Si bien este cambio de comportamiento no compromete el rendimiento en problemas sencillos, podría afectar el desempeño en tareas más desafiantes. Esperamos que nuestros hallazgos atraigan mayor atención tanto hacia la robustez de los modelos de razonamiento como hacia el problema de la gestión del contexto para los LLM y los agentes basados en LLM.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Cambio en el Razonamiento: Cómo el Contexto Acorta Silenciosamente el Razonamiento de los LLM

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Resumen

Support