Quand les agents LLM échouent et comment ils peuvent apprendre de leurs échecs
Where LLM Agents Fail and How They can Learn From Failures
September 29, 2025
papers.authors: Kunlun Zhu, Zijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan Lu, James Zou, Jiaxuan You
cs.AI
papers.abstract
Les agents de modèles de langage de grande taille (LLM), qui intègrent des modules de planification, de mémoire, de réflexion et d'utilisation d'outils, ont montré des résultats prometteurs dans la résolution de tâches complexes et multi-étapes. Cependant, leurs architectures sophistiquées amplifient leur vulnérabilité aux défaillances en cascade, où une seule erreur à la racine se propage à travers les décisions ultérieures, entraînant l'échec de la tâche. Les systèmes actuels manquent d'un cadre capable de comprendre de manière exhaustive et systémique les erreurs des agents, et donc échouent à détecter ces erreurs de manière appropriée. Nous comblons cette lacune avec trois contributions. Premièrement, nous introduisons l'AgentErrorTaxonomy, une classification modulaire des modes de défaillance couvrant la mémoire, la réflexion, la planification, l'action et les opérations au niveau système. Deuxièmement, nous construisons AgentErrorBench, le premier ensemble de données de trajectoires de défaillance annotées systématiquement provenant d'ALFWorld, GAIA et WebShop, ancrant l'analyse des erreurs dans des déploiements réels d'agents. Troisièmement, nous proposons AgentDebug, un cadre de débogage qui isole les défaillances à la racine et fournit un retour correctif, permettant aux agents de récupérer et de s'améliorer de manière itérative. Les expériences sur AgentErrorBench montrent qu'AgentDebug atteint une précision totale correcte 24 % plus élevée et une précision par étape 17 % plus élevée par rapport à la base de référence la plus solide. Au-delà de la détection, le retour ciblé généré par AgentDebug permet aux agents LLM de récupérer de manière itérative des échecs, entraînant des améliorations relatives allant jusqu'à 26 % dans le succès des tâches sur ALFWorld, GAIA et WebShop. Ces résultats établissent le débogage méthodique comme une voie vers des agents LLM plus fiables et adaptatifs. Le code et les données seront disponibles à l'adresse https://github.com/ulab-uiuc/AgentDebug.
English
Large Language Model (LLM) agents, which integrate planning, memory,
reflection, and tool-use modules, have shown promise in solving complex,
multi-step tasks. Yet their sophisticated architectures amplify vulnerability
to cascading failures, where a single root-cause error propagates through
subsequent decisions, leading to task failure. Current systems lack a framework
that can comprehensively understand agent error in a modular and systemic way,
and therefore fail to detect these errors accordingly. We address this gap with
three contributions. First, we introduce the AgentErrorTaxonomy, a modular
classification of failure modes spanning memory, reflection, planning, action,
and system-level operations. Second, we construct AgentErrorBench, the first
dataset of systematically annotated failure trajectories from ALFWorld, GAIA,
and WebShop, grounding error analysis in real-world agent rollouts. Third, we
propose AgentDebug, a debugging framework that isolates root-cause failures and
provides corrective feedback, enabling agents to recover and iteratively
improve. Experiments on AgentErrorBench show that AgentDebug achieves 24%
higher all-correct accuracy and 17% higher step accuracy compared to the
strongest baseline. Beyond detection, the targeted feedback generated by
AgentDebug enables LLM agents to iteratively recover from failures, yielding up
to 26% relative improvements in task success across ALFWorld, GAIA, and
WebShop. These results establish principled debugging as a pathway to more
reliable and adaptive LLM agents. The code and data will be available at
https://github.com/ulab-uiuc/AgentDebug