Het Gevaar van Overdenken: Het Onderzoeken van het Redeneer-Actie Dilemma bij Agentische Taken
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
Auteurs: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
Samenvatting
Grote Redenerende Modellen (LRM's) vertegenwoordigen een doorbraak in de AI probleemoplossende capaciteiten, maar hun effectiviteit in interactieve omgevingen kan beperkt zijn. Dit artikel introduceert en analyseert overdenken in LRM's. Een fenomeen waar modellen de voorkeur geven aan uitgebreide interne redeneerketens boven omgevingsinteractie. Door experimenten uit te voeren op software engineering taken met behulp van SWE Bench Verified, observeren we drie terugkerende patronen: Analyse Verlamming, Dwarse Acties en Voortijdige Ontkoppeling. We stellen een raamwerk voor om deze gedragingen te bestuderen, dat correleert met menselijke expertbeoordelingen, en analyseren 4018 trajecten. We observeren dat hogere overdenkscores correleren met verminderde prestaties, waarbij redenerende modellen sterkere neigingen vertonen tot overdenken in vergelijking met niet-redenerende modellen. Onze analyse onthult dat eenvoudige inspanningen om overdenken in agente omgevingen te verminderen, zoals het selecteren van de oplossing met de lagere overdenkscore, de modelprestaties met bijna 30% kunnen verbeteren terwijl de berekeningskosten met 43% worden verminderd. Deze resultaten suggereren dat het verminderen van overdenken sterke praktische implicaties heeft. We suggereren dat door gebruik te maken van de inheemse functie-oproepmogelijkheden en selectieve versterkende leerneigingen tot overdenken kunnen worden verminderd. We stellen ook ons evaluatieraamwerk en dataset open-source beschikbaar om onderzoek in deze richting te vergemakkelijken op https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary