Где агенты на основе больших языковых моделей терпят неудачи и как они могут учиться на ошибках
Where LLM Agents Fail and How They can Learn From Failures
September 29, 2025
Авторы: Kunlun Zhu, Zijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan Lu, James Zou, Jiaxuan You
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM), объединяющие модули планирования, памяти, рефлексии и использования инструментов, демонстрируют потенциал в решении сложных многошаговых задач. Однако их сложные архитектуры усиливают уязвимость к каскадным сбоям, когда одна ошибка, являющаяся корневой причиной, распространяется на последующие решения, приводя к провалу задачи. Современные системы не обладают структурой, которая могла бы всесторонне анализировать ошибки агентов модульным и системным образом, и, следовательно, не способны своевременно выявлять такие ошибки. Мы устраняем этот пробел с помощью трех вкладов. Во-первых, мы представляем AgentErrorTaxonomy — модульную классификацию режимов сбоев, охватывающих память, рефлексию, планирование, действия и системные операции. Во-вторых, мы создаем AgentErrorBench — первый набор данных с систематически аннотированными траекториями сбоев из ALFWorld, GAIA и WebShop, что позволяет проводить анализ ошибок на основе реальных запусков агентов. В-третьих, мы предлагаем AgentDebug — фреймворк для отладки, который изолирует корневые причины сбоев и предоставляет корректирующие рекомендации, позволяя агентам восстанавливаться и улучшаться итеративно. Эксперименты на AgentErrorBench показывают, что AgentDebug достигает на 24% более высокой точности в выполнении всех шагов без ошибок и на 17% более высокой точности на каждом шаге по сравнению с самым сильным базовым методом. Помимо обнаружения, целевые рекомендации, генерируемые AgentDebug, позволяют агентам на основе LLM итеративно восстанавливаться после сбоев, что приводит к относительному улучшению успешности задач до 26% в ALFWorld, GAIA и WebShop. Эти результаты подтверждают, что принципиальная отладка является путем к созданию более надежных и адаптивных агентов на основе LLM. Код и данные будут доступны по адресу https://github.com/ulab-uiuc/AgentDebug.
English
Large Language Model (LLM) agents, which integrate planning, memory,
reflection, and tool-use modules, have shown promise in solving complex,
multi-step tasks. Yet their sophisticated architectures amplify vulnerability
to cascading failures, where a single root-cause error propagates through
subsequent decisions, leading to task failure. Current systems lack a framework
that can comprehensively understand agent error in a modular and systemic way,
and therefore fail to detect these errors accordingly. We address this gap with
three contributions. First, we introduce the AgentErrorTaxonomy, a modular
classification of failure modes spanning memory, reflection, planning, action,
and system-level operations. Second, we construct AgentErrorBench, the first
dataset of systematically annotated failure trajectories from ALFWorld, GAIA,
and WebShop, grounding error analysis in real-world agent rollouts. Third, we
propose AgentDebug, a debugging framework that isolates root-cause failures and
provides corrective feedback, enabling agents to recover and iteratively
improve. Experiments on AgentErrorBench show that AgentDebug achieves 24%
higher all-correct accuracy and 17% higher step accuracy compared to the
strongest baseline. Beyond detection, the targeted feedback generated by
AgentDebug enables LLM agents to iteratively recover from failures, yielding up
to 26% relative improvements in task success across ALFWorld, GAIA, and
WebShop. These results establish principled debugging as a pathway to more
reliable and adaptive LLM agents. The code and data will be available at
https://github.com/ulab-uiuc/AgentDebug