Wo LLM-Agenten scheitern und wie sie aus Fehlern lernen können
Where LLM Agents Fail and How They can Learn From Failures
September 29, 2025
papers.authors: Kunlun Zhu, Zijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan Lu, James Zou, Jiaxuan You
cs.AI
papers.abstract
Große Sprachmodell-Agenten (LLM-Agenten), die Planungs-, Gedächtnis-, Reflexions- und Werkzeugnutzungsmodule integrieren, haben vielversprechende Ergebnisse bei der Lösung komplexer, mehrstufiger Aufgaben gezeigt. Ihre anspruchsvollen Architekturen verstärken jedoch die Anfälligkeit für kaskadierende Fehler, bei denen ein einzelner Ursachenfehler sich durch nachfolgende Entscheidungen fortpflanzt und zum Scheitern der Aufgabe führt. Aktuelle Systeme verfügen nicht über ein Framework, das Agentenfehler umfassend und modular sowie systemisch verstehen kann, und scheitern daher daran, diese Fehler entsprechend zu erkennen. Wir schließen diese Lücke mit drei Beiträgen. Erstens führen wir die AgentErrorTaxonomy ein, eine modulare Klassifizierung von Fehlermodi, die Gedächtnis, Reflexion, Planung, Aktion und systemweite Operationen umfasst. Zweitens erstellen wir AgentErrorBench, den ersten Datensatz systematisch annotierter Fehlerverläufe aus ALFWorld, GAIA und WebShop, der die Fehleranalyse in realen Agenten-Durchläufen verankert. Drittens schlagen wir AgentDebug vor, ein Debugging-Framework, das Ursachenfehler isoliert und korrektives Feedback bereitstellt, wodurch Agenten in die Lage versetzt werden, sich zu erholen und iterativ zu verbessern. Experimente auf AgentErrorBench zeigen, dass AgentDebug im Vergleich zum stärksten Baseline eine um 24 % höhere All-Correct-Genauigkeit und eine um 17 % höhere Schrittgenauigkeit erreicht. Über die Erkennung hinaus ermöglicht das gezielte Feedback von AgentDebug LLM-Agenten, sich iterativ von Fehlern zu erholen, was zu relativen Verbesserungen der Aufgabenbewältigung von bis zu 26 % in ALFWorld, GAIA und WebShop führt. Diese Ergebnisse etablieren prinzipienbasiertes Debugging als Weg zu zuverlässigeren und anpassungsfähigeren LLM-Agenten. Der Code und die Daten werden unter https://github.com/ulab-uiuc/AgentDebug verfügbar sein.
English
Large Language Model (LLM) agents, which integrate planning, memory,
reflection, and tool-use modules, have shown promise in solving complex,
multi-step tasks. Yet their sophisticated architectures amplify vulnerability
to cascading failures, where a single root-cause error propagates through
subsequent decisions, leading to task failure. Current systems lack a framework
that can comprehensively understand agent error in a modular and systemic way,
and therefore fail to detect these errors accordingly. We address this gap with
three contributions. First, we introduce the AgentErrorTaxonomy, a modular
classification of failure modes spanning memory, reflection, planning, action,
and system-level operations. Second, we construct AgentErrorBench, the first
dataset of systematically annotated failure trajectories from ALFWorld, GAIA,
and WebShop, grounding error analysis in real-world agent rollouts. Third, we
propose AgentDebug, a debugging framework that isolates root-cause failures and
provides corrective feedback, enabling agents to recover and iteratively
improve. Experiments on AgentErrorBench show that AgentDebug achieves 24%
higher all-correct accuracy and 17% higher step accuracy compared to the
strongest baseline. Beyond detection, the targeted feedback generated by
AgentDebug enables LLM agents to iteratively recover from failures, yielding up
to 26% relative improvements in task success across ALFWorld, GAIA, and
WebShop. These results establish principled debugging as a pathway to more
reliable and adaptive LLM agents. The code and data will be available at
https://github.com/ulab-uiuc/AgentDebug