Mudança de Raciocínio: Como o Contexto Encurta Silenciosamente o Raciocínio de LLMs

Resumo

Modelos de linguagem de grande escala (LLMs) que exibem comportamentos de escalonamento no momento do teste, como traços de raciocínio estendidos e autoverificação, demonstraram desempenho notável em tarefas complexas de raciocínio de longo prazo. No entanto, a robustez desses comportamentos de raciocínio permanece pouco explorada. Para investigar isso, realizamos uma avaliação sistemática de múltiplos modelos de raciocínio em três cenários: (1) problemas aumentados com contexto irrelevante e extenso; (2) ambientes conversacionais multiturno com tarefas independentes; e (3) problemas apresentados como uma subtarefa dentro de uma tarefa complexa. Observamos um fenômeno interessante: os modelos de raciocínio tendem a produzir traços de raciocínio muito mais curtos (até 50%) para o mesmo problema sob diferentes condições de contexto, em comparação com os traços produzidos quando o problema é apresentado isoladamente. Uma análise mais refinada revela que essa compressão está associada a uma diminuição nos comportamentos de autoverificação e gestão de incerteza, como a verificação dupla. Embora essa mudança comportamental não comprometa o desempenho em problemas diretos, ela pode afetar o desempenho em tarefas mais desafiadoras. Esperamos que nossas descobertas atraiam atenção adicional tanto para a robustez dos modelos de raciocínio quanto para o problema da gestão de contexto em LLMs e agentes baseados em LLM.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Mudança de Raciocínio: Como o Contexto Encurta Silenciosamente o Raciocínio de LLMs

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Resumo

Support