Décalage du raisonnement : comment le contexte raccourcit silencieusement le raisonnement des LLM

Résumé

Les grands modèles de langage (LLM) présentant des comportements d'échelle au moment des tests, tels que des traces de raisonnement étendues et l'auto-vérification, ont démontré des performances remarquables sur des tâches de raisonnement complexes et à long terme. Cependant, la robustesse de ces comportements raisonnés reste insuffisamment explorée. Pour étudier cette question, nous menons une évaluation systématique de plusieurs modèles de raisonnement dans trois scénarios : (1) des problèmes augmentés d'un contexte long et non pertinent ; (2) des configurations conversationnelles multi-tours avec des tâches indépendantes ; et (3) des problèmes présentés comme sous-tâches dans une tâche complexe. Nous observons un phénomène intéressant : les modèles de raisonnement tendent à produire des traces de raisonnement beaucoup plus courtes (jusqu'à 50%) pour un même problème sous différentes conditions contextuelles, comparé aux traces produites lorsque le problème est présenté isolément. Une analyse plus fine révèle que cette compression est associée à une diminution des comportements d'auto-vérification et de gestion de l'incertitude, comme la double vérification. Bien que ce changement comportemental ne compromette pas les performances sur des problèmes simples, il pourrait affecter les résultats sur des tâches plus difficiles. Nous espérons que nos résultats attireront davantage l'attention sur la robustesse des modèles de raisonnement et sur le problème de la gestion du contexte pour les LLM et les agents basés sur des LLM.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Décalage du raisonnement : comment le contexte raccourcit silencieusement le raisonnement des LLM

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Résumé

Support