Spostamento del Ragionamento: Come il Contesto Accorcia Silenziosamente il Ragionamento dei Modelli Linguistici

Abstract

I modelli linguistici di grandi dimensioni (LLM) che mostrano comportamenti di scaling al momento del test, come tracce di ragionamento estese e auto-verifica, hanno dimostrato prestazioni notevoli in compiti di ragionamento complessi e a lungo termine. Tuttavia, la robustezza di questi comportamenti di ragionamento rimane poco esplorata. Per indagare ciò, conduciamo una valutazione sistematica di molteplici modelli di ragionamento in tre scenari: (1) problemi arricchiti con contesto irrilevante e prolungato; (2) ambienti conversazionali multi-turn con compiti indipendenti; e (3) problemi presentati come sottocompito all'interno di un'attività complessa. Osserviamo un fenomeno interessante: i modelli di ragionamento tendono a produrre tracce di ragionamento molto più brevi (fino al 50%) per lo stesso problema in diverse condizioni di contesto, rispetto alle tracce prodotte quando il problema è presentato in isolamento. Un'analisi più granulare rivela che questa compressione è associata a una diminuzione dei comportamenti di auto-verifica e gestione dell'incertezza, come il ricontrollo. Sebbene questo cambiamento comportamentale non comprometta le prestazioni su problemi semplici, potrebbe influenzare le prestazioni su compiti più impegnativi. Ci auguriamo che i nostri risultati attirino ulteriore attenzione sia sulla robustezza dei modelli di ragionamento che sul problema della gestione del contesto per gli LLM e gli agenti basati su LLM.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Spostamento del Ragionamento: Come il Contesto Accorcia Silenziosamente il Ragionamento dei Modelli Linguistici

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Abstract

Support