Die Gefahr des Überdenkens: Untersuchung des Denk-Handlungs-Dilemmas bei agentischen Aufgaben
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
Autoren: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
Zusammenfassung
Große Schlussfolgerungsmodelle (LRMs) stellen einen Durchbruch in den Problemlösungsfähigkeiten der KI dar, aber ihre Effektivität in interaktiven Umgebungen kann begrenzt sein. Dieser Artikel führt ein und analysiert übermäßiges Nachdenken in LRMs. Ein Phänomen, bei dem Modelle erweiterte interne Schlussfolgerungsketten gegenüber der Umgebungsinteraktion bevorzugen. Durch Experimente an Softwaretechnikaufgaben mit SWE Bench Verified beobachten wir drei wiederkehrende Muster: Analyse-Paralyse, Rogue-Aktionen und vorzeitiges Abbrechen. Wir schlagen ein Rahmenwerk zur Untersuchung dieser Verhaltensweisen vor, das mit menschlichen Expertenbewertungen korreliert, und analysieren 4018 Trajektorien. Wir stellen fest, dass höhere übermäßiges Nachdenken-Werte mit einer verringerten Leistung korrelieren, wobei Schlussfolgerungsmodelle stärkere Tendenzen zum übermäßigen Nachdenken im Vergleich zu Nicht-Schlussfolgerungsmodellen aufweisen. Unsere Analyse zeigt, dass einfache Maßnahmen zur Minderung von übermäßigem Nachdenken in agentischen Umgebungen, wie die Auswahl der Lösung mit der geringeren übermäßiges Nachdenken-Bewertung, die Modellleistung um fast 30% verbessern können, während die Rechenkosten um 43% reduziert werden. Diese Ergebnisse legen nahe, dass die Minderung von übermäßigem Nachdenken starke praktische Auswirkungen hat. Wir schlagen vor, dass durch die Nutzung nativer Funktionsaufruf-Fähigkeiten und selektives Verstärkungslernen übermäßige Nachdenk-Tendenzen gemildert werden könnten. Wir stellen auch unser Bewertungsrahmenwerk und Datensatz als Open Source zur Verfügung, um die Forschung in diese Richtung zu erleichtern unter https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary