Denkverschiebung: Wie Kontext stillschweigend das Schlussfolgern von LLMs verkürzt

Zusammenfassung

Große Sprachmodelle (LLMs), die Testzeit-Skalierungsverhalten aufweisen, wie etwa erweiterte Denkprozesse und Selbstverifikation, haben bemerkenswerte Leistungen bei komplexen, langfristigen Denkaufgaben gezeigt. Die Robustheit dieser Denkprozesse ist jedoch noch unzureichend erforscht. Um dies zu untersuchen, führen wir eine systematische Bewertung mehrerer Reasoning-Modelle in drei Szenarien durch: (1) Probleme, die mit langem, irrelevantem Kontext angereichert sind; (2) mehrstufige Konversationssettings mit unabhängigen Aufgaben; und (3) Probleme, die als Teilaufgabe innerhalb einer komplexen Aufgabe präsentiert werden. Wir beobachten ein interessantes Phänomen: Reasoning-Modelle neigen dazu, für dasselbe Problem unter verschiedenen Kontextbedingungen deutlich kürzere Denkprozesse (bis zu 50 %) zu erzeugen als die Prozesse, die produziert werden, wenn das Problem isoliert präsentiert wird. Eine fein granulare Analyse zeigt, dass diese Komprimierung mit einer Abnahme von Selbstverifikations- und Unsicherheitsmanagement-Verhalten einhergeht, wie beispielsweise doppelter Überprüfung. Während diese Verhaltensänderung die Leistung bei einfachen Problemen nicht beeinträchtigt, könnte sie die Leistung bei anspruchsvolleren Aufgaben beeinflussen. Wir hoffen, dass unsere Ergebnisse zusätzliche Aufmerksamkeit sowohl auf die Robustheit von Reasoning-Modellen als auch auf das Problem des Kontextmanagements für LLMs und LLM-basierte Agenten lenken.

English

Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.

Denkverschiebung: Wie Kontext stillschweigend das Schlussfolgern von LLMs verkürzt

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Zusammenfassung

Support