Le danger de trop réfléchir : Examen du dilemme raisonnement-action dans les tâches agentic.
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
February 12, 2025
Auteurs: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
cs.AI
Résumé
Les grands modèles de raisonnement (LRM) représentent une avancée dans les capacités de résolution de problèmes en intelligence artificielle, mais leur efficacité dans des environnements interactifs peut être limitée. Cet article introduit et analyse la surréflexion dans les LRM, un phénomène où les modèles privilégient des chaînes de raisonnement interne prolongées par rapport à l'interaction environnementale. À travers des expériences sur des tâches d'ingénierie logicielle utilisant SWE Bench Verified, nous observons trois schémas récurrents : Paralysie de l'analyse, Actions rebelles et Désengagement prématuré. Nous proposons un cadre pour étudier ces comportements, qui corrobore les évaluations d'experts humains, et analysons 4018 trajectoires. Nous constatons que des scores plus élevés de surréflexion sont corrélés à des performances réduites, les modèles de raisonnement montrant des tendances plus marquées à la surréflexion par rapport aux modèles non raisonnants. Notre analyse révèle que des efforts simples pour atténuer la surréflexion dans des environnements agentic, tels que choisir la solution avec le score de surréflexion le plus bas, peuvent améliorer les performances du modèle de près de 30 % tout en réduisant les coûts de calcul de 43 %. Ces résultats suggèrent que l'atténuation de la surréflexion a de fortes implications pratiques. Nous suggérons que l'utilisation des capacités d'appel de fonction natives et de l'apprentissage par renforcement sélectif pourrait atténuer les tendances à la surréflexion. Nous mettons également en open source notre cadre d'évaluation et notre ensemble de données pour faciliter la recherche dans cette direction sur https://github.com/AlexCuadron/Overthinking.
English
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving
capabilities, but their effectiveness in interactive environments can be
limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon
where models favor extended internal reasoning chains over environmental
interaction. Through experiments on software engineering tasks using SWE Bench
Verified, we observe three recurring patterns: Analysis Paralysis, Rogue
Actions, and Premature Disengagement. We propose a framework to study these
behaviors, which correlates with human expert assessments, and analyze 4018
trajectories. We observe that higher overthinking scores correlate with
decreased performance, with reasoning models exhibiting stronger tendencies
toward overthinking compared to non-reasoning models. Our analysis reveals that
simple efforts to mitigate overthinking in agentic environments, such as
selecting the solution with the lower overthinking score, can improve model
performance by almost 30% while reducing computational costs by 43%. These
results suggest that mitigating overthinking has strong practical implications.
We suggest that by leveraging native function-calling capabilities and
selective reinforcement learning overthinking tendencies could be mitigated. We
also open-source our evaluation framework and dataset to facilitate research in
this direction at https://github.com/AlexCuadron/Overthinking.Summary
AI-Generated Summary