ChatPaper.aiChatPaper

Il Pericolo dell' Eccessiva Riflessione: Esaminando il Dilemma Ragionamento-Azione nei Compiti Agentici

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

February 12, 2025
Autori: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI

Abstract

I Large Reasoning Models (LRM) rappresentano una svolta nelle capacità di risoluzione dei problemi dell'IA, ma la loro efficacia negli ambienti interattivi può essere limitata. Questo articolo introduce e analizza l'eccessiva riflessione nei LRM, un fenomeno in cui i modelli favoriscono catene di ragionamento interno prolungate rispetto all'interazione ambientale. Attraverso esperimenti su compiti di ingegneria del software utilizzando SWE Bench Verified, osserviamo tre modelli ricorrenti: Paralisi dell'Analisi, Azioni Selvagge e Disimpegno Prematuro. Proponiamo un framework per studiare questi comportamenti, che si correla con le valutazioni degli esperti umani, e analizziamo 4018 traiettorie. Osserviamo che punteggi più alti di eccessiva riflessione si correlano con una diminuzione delle prestazioni, con i modelli di ragionamento che mostrano tendenze più forti all'eccessiva riflessione rispetto ai modelli non di ragionamento. La nostra analisi rivela che semplici sforzi per mitigare l'eccessiva riflessione in ambienti agentici, come la selezione della soluzione con il punteggio di eccessiva riflessione più basso, possono migliorare le prestazioni del modello di quasi il 30% riducendo i costi computazionali del 43%. Questi risultati suggeriscono che mitigare l'eccessiva riflessione ha forti implicazioni pratiche. Suggeriamo che sfruttando le capacità native di chiamata di funzione e l'apprendimento per rinforzo selettivo, le tendenze all'eccessiva riflessione potrebbero essere mitigate. Mettiamo anche a disposizione in open-source il nostro framework di valutazione e dataset per facilitare la ricerca in questa direzione su https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving capabilities, but their effectiveness in interactive environments can be limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon where models favor extended internal reasoning chains over environmental interaction. Through experiments on software engineering tasks using SWE Bench Verified, we observe three recurring patterns: Analysis Paralysis, Rogue Actions, and Premature Disengagement. We propose a framework to study these behaviors, which correlates with human expert assessments, and analyze 4018 trajectories. We observe that higher overthinking scores correlate with decreased performance, with reasoning models exhibiting stronger tendencies toward overthinking compared to non-reasoning models. Our analysis reveals that simple efforts to mitigate overthinking in agentic environments, such as selecting the solution with the lower overthinking score, can improve model performance by almost 30% while reducing computational costs by 43%. These results suggest that mitigating overthinking has strong practical implications. We suggest that by leveraging native function-calling capabilities and selective reinforcement learning overthinking tendencies could be mitigated. We also open-source our evaluation framework and dataset to facilitate research in this direction at https://github.com/AlexCuadron/Overthinking.

Summary

AI-Generated Summary

PDF582February 17, 2025