Redeneerverschuiving: Hoe Context Stilzwijgend de Redeneerlengte van LLM's Verkort

Samenvatting

Grote taalmodellen (LLM's) die testtijd-schaalgedrag vertonen, zoals uitgebreide redeneersporen en zelfverificatie, hebben opmerkelijke prestaties geleverd bij complexe, langetermijnredeneertaken. De robuustheid van deze redeneergedragingen blijft echter onderbelicht. Om dit te onderzoeken, voeren we een systematische evaluatie uit van meerdere redeneermodellen in drie scenario's: (1) problemen aangevuld met lange, irrelevante context; (2) meerkeuzegespreksomgevingen met onafhankelijke taken; en (3) problemen gepresenteerd als een subtask binnen een complexe taak. We observeren een interessant fenomeen: redeneermodellen produceren vaak aanzienlijk kortere redeneersporen (tot 50%) voor hetzelfde probleem onder verschillende contextomstandigheden vergeleken met de sporen geproduceerd wanneer het probleem geïsoleerd wordt gepresenteerd. Een fijnmazigere analyse onthult dat deze compressie gepaard gaat met een afname van zelfverificatie- en onzekerheidsbeheergedrag, zoals dubbelchecken. Hoewel deze gedragsverschuiving de prestaties bij eenvoudige problemen niet aantast, kan dit wel invloed hebben op de prestaties bij uitdagendere taken. We hopen dat onze bevindingen extra aandacht vestigt op zowel de robuustheid van redeneermodellen als het probleem van contextbeheer voor LLM's en op LLM's gebaseerde agents.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Redeneerverschuiving: Hoe Context Stilzwijgend de Redeneerlengte van LLM's Verkort

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Samenvatting

Support