Onde os Agentes de LLM Falham e Como Podem Aprender com as Falhas
Where LLM Agents Fail and How They can Learn From Failures
September 29, 2025
Autores: Kunlun Zhu, Zijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan Lu, James Zou, Jiaxuan You
cs.AI
Resumo
Agentes de Modelos de Linguagem de Grande Escala (LLM), que integram módulos de planejamento, memória, reflexão e uso de ferramentas, têm mostrado potencial na resolução de tarefas complexas e de múltiplas etapas. No entanto, suas arquiteturas sofisticadas ampliam a vulnerabilidade a falhas em cascata, onde um único erro de causa raiz se propaga por decisões subsequentes, levando à falha da tarefa. Os sistemas atuais carecem de uma estrutura que possa compreender de forma abrangente os erros dos agentes de maneira modular e sistêmica e, portanto, falham em detectar esses erros adequadamente. Abordamos essa lacuna com três contribuições. Primeiro, introduzimos a AgentErrorTaxonomy, uma classificação modular de modos de falha que abrangem operações de memória, reflexão, planejamento, ação e nível de sistema. Segundo, construímos o AgentErrorBench, o primeiro conjunto de dados de trajetórias de falhas anotadas sistematicamente do ALFWorld, GAIA e WebShop, fundamentando a análise de erros em execuções reais de agentes. Terceiro, propomos o AgentDebug, uma estrutura de depuração que isola falhas de causa raiz e fornece feedback corretivo, permitindo que os agentes se recuperem e melhorem iterativamente. Experimentos no AgentErrorBench mostram que o AgentDebug alcança uma precisão de acertos totais 24% maior e uma precisão de etapas 17% maior em comparação com a linha de base mais forte. Além da detecção, o feedback direcionado gerado pelo AgentDebug permite que os agentes LLM se recuperem iterativamente de falhas, resultando em melhorias relativas de até 26% no sucesso da tarefa em ALFWorld, GAIA e WebShop. Esses resultados estabelecem a depuração fundamentada como um caminho para agentes LLM mais confiáveis e adaptáveis. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/AgentDebug.
English
Large Language Model (LLM) agents, which integrate planning, memory,
reflection, and tool-use modules, have shown promise in solving complex,
multi-step tasks. Yet their sophisticated architectures amplify vulnerability
to cascading failures, where a single root-cause error propagates through
subsequent decisions, leading to task failure. Current systems lack a framework
that can comprehensively understand agent error in a modular and systemic way,
and therefore fail to detect these errors accordingly. We address this gap with
three contributions. First, we introduce the AgentErrorTaxonomy, a modular
classification of failure modes spanning memory, reflection, planning, action,
and system-level operations. Second, we construct AgentErrorBench, the first
dataset of systematically annotated failure trajectories from ALFWorld, GAIA,
and WebShop, grounding error analysis in real-world agent rollouts. Third, we
propose AgentDebug, a debugging framework that isolates root-cause failures and
provides corrective feedback, enabling agents to recover and iteratively
improve. Experiments on AgentErrorBench show that AgentDebug achieves 24%
higher all-correct accuracy and 17% higher step accuracy compared to the
strongest baseline. Beyond detection, the targeted feedback generated by
AgentDebug enables LLM agents to iteratively recover from failures, yielding up
to 26% relative improvements in task success across ALFWorld, GAIA, and
WebShop. These results establish principled debugging as a pathway to more
reliable and adaptive LLM agents. The code and data will be available at
https://github.com/ulab-uiuc/AgentDebug