Onde os Agentes de LLM Falham e Como Podem Aprender com as Falhas

Resumo

Agentes de Modelos de Linguagem de Grande Escala (LLM), que integram módulos de planejamento, memória, reflexão e uso de ferramentas, têm mostrado potencial na resolução de tarefas complexas e de múltiplas etapas. No entanto, suas arquiteturas sofisticadas ampliam a vulnerabilidade a falhas em cascata, onde um único erro de causa raiz se propaga por decisões subsequentes, levando à falha da tarefa. Os sistemas atuais carecem de uma estrutura que possa compreender de forma abrangente os erros dos agentes de maneira modular e sistêmica e, portanto, falham em detectar esses erros adequadamente. Abordamos essa lacuna com três contribuições. Primeiro, introduzimos a AgentErrorTaxonomy, uma classificação modular de modos de falha que abrangem operações de memória, reflexão, planejamento, ação e nível de sistema. Segundo, construímos o AgentErrorBench, o primeiro conjunto de dados de trajetórias de falhas anotadas sistematicamente do ALFWorld, GAIA e WebShop, fundamentando a análise de erros em execuções reais de agentes. Terceiro, propomos o AgentDebug, uma estrutura de depuração que isola falhas de causa raiz e fornece feedback corretivo, permitindo que os agentes se recuperem e melhorem iterativamente. Experimentos no AgentErrorBench mostram que o AgentDebug alcança uma precisão de acertos totais 24% maior e uma precisão de etapas 17% maior em comparação com a linha de base mais forte. Além da detecção, o feedback direcionado gerado pelo AgentDebug permite que os agentes LLM se recuperem iterativamente de falhas, resultando em melhorias relativas de até 26% no sucesso da tarefa em ALFWorld, GAIA e WebShop. Esses resultados estabelecem a depuração fundamentada como um caminho para agentes LLM mais confiáveis e adaptáveis. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/AgentDebug.

English

Large Language Model (LLM) agents, which integrate planning, memory, reflection, and tool-use modules, have shown promise in solving complex, multi-step tasks. Yet their sophisticated architectures amplify vulnerability to cascading failures, where a single root-cause error propagates through subsequent decisions, leading to task failure. Current systems lack a framework that can comprehensively understand agent error in a modular and systemic way, and therefore fail to detect these errors accordingly. We address this gap with three contributions. First, we introduce the AgentErrorTaxonomy, a modular classification of failure modes spanning memory, reflection, planning, action, and system-level operations. Second, we construct AgentErrorBench, the first dataset of systematically annotated failure trajectories from ALFWorld, GAIA, and WebShop, grounding error analysis in real-world agent rollouts. Third, we propose AgentDebug, a debugging framework that isolates root-cause failures and provides corrective feedback, enabling agents to recover and iteratively improve. Experiments on AgentErrorBench show that AgentDebug achieves 24% higher all-correct accuracy and 17% higher step accuracy compared to the strongest baseline. Beyond detection, the targeted feedback generated by AgentDebug enables LLM agents to iteratively recover from failures, yielding up to 26% relative improvements in task success across ALFWorld, GAIA, and WebShop. These results establish principled debugging as a pathway to more reliable and adaptive LLM agents. The code and data will be available at https://github.com/ulab-uiuc/AgentDebug

Onde os Agentes de LLM Falham e Como Podem Aprender com as Falhas

Where LLM Agents Fail and How They can Learn From Failures

Resumo

Support