Dónde fallan los agentes de LLM y cómo pueden aprender de los errores

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), que integran módulos de planificación, memoria, reflexión y uso de herramientas, han demostrado ser prometedores para resolver tareas complejas y de múltiples pasos. Sin embargo, sus arquitecturas sofisticadas amplifican la vulnerabilidad a fallos en cascada, donde un único error de causa raíz se propaga a través de decisiones posteriores, lo que lleva al fracaso de la tarea. Los sistemas actuales carecen de un marco que pueda comprender de manera integral y sistémica los errores de los agentes de forma modular y, por lo tanto, no logran detectar estos errores adecuadamente. Abordamos esta brecha con tres contribuciones. Primero, presentamos la AgentErrorTaxonomy, una clasificación modular de modos de fallo que abarca memoria, reflexión, planificación, acción y operaciones a nivel de sistema. Segundo, construimos AgentErrorBench, el primer conjunto de datos de trayectorias de fallos anotadas sistemáticamente provenientes de ALFWorld, GAIA y WebShop, fundamentando el análisis de errores en ejecuciones reales de agentes. Tercero, proponemos AgentDebug, un marco de depuración que aísla fallos de causa raíz y proporciona retroalimentación correctiva, permitiendo que los agentes se recuperen y mejoren de manera iterativa. Los experimentos en AgentErrorBench muestran que AgentDebug logra un 24% más de precisión en todas las respuestas correctas y un 17% más de precisión por paso en comparación con el mejor modelo de referencia. Más allá de la detección, la retroalimentación específica generada por AgentDebug permite que los agentes LLM se recuperen iterativamente de los fallos, obteniendo mejoras relativas de hasta el 26% en el éxito de las tareas en ALFWorld, GAIA y WebShop. Estos resultados establecen la depuración basada en principios como una vía hacia agentes LLM más confiables y adaptativos. El código y los datos estarán disponibles en https://github.com/ulab-uiuc/AgentDebug.

English

Large Language Model (LLM) agents, which integrate planning, memory, reflection, and tool-use modules, have shown promise in solving complex, multi-step tasks. Yet their sophisticated architectures amplify vulnerability to cascading failures, where a single root-cause error propagates through subsequent decisions, leading to task failure. Current systems lack a framework that can comprehensively understand agent error in a modular and systemic way, and therefore fail to detect these errors accordingly. We address this gap with three contributions. First, we introduce the AgentErrorTaxonomy, a modular classification of failure modes spanning memory, reflection, planning, action, and system-level operations. Second, we construct AgentErrorBench, the first dataset of systematically annotated failure trajectories from ALFWorld, GAIA, and WebShop, grounding error analysis in real-world agent rollouts. Third, we propose AgentDebug, a debugging framework that isolates root-cause failures and provides corrective feedback, enabling agents to recover and iteratively improve. Experiments on AgentErrorBench show that AgentDebug achieves 24% higher all-correct accuracy and 17% higher step accuracy compared to the strongest baseline. Beyond detection, the targeted feedback generated by AgentDebug enables LLM agents to iteratively recover from failures, yielding up to 26% relative improvements in task success across ALFWorld, GAIA, and WebShop. These results establish principled debugging as a pathway to more reliable and adaptive LLM agents. The code and data will be available at https://github.com/ulab-uiuc/AgentDebug

Dónde fallan los agentes de LLM y cómo pueden aprender de los errores

Where LLM Agents Fail and How They can Learn From Failures

Resumen

Support