Где агенты на основе больших языковых моделей терпят неудачи и как они могут учиться на ошибках

Аннотация

Агенты на основе больших языковых моделей (LLM), объединяющие модули планирования, памяти, рефлексии и использования инструментов, демонстрируют потенциал в решении сложных многошаговых задач. Однако их сложные архитектуры усиливают уязвимость к каскадным сбоям, когда одна ошибка, являющаяся корневой причиной, распространяется на последующие решения, приводя к провалу задачи. Современные системы не обладают структурой, которая могла бы всесторонне анализировать ошибки агентов модульным и системным образом, и, следовательно, не способны своевременно выявлять такие ошибки. Мы устраняем этот пробел с помощью трех вкладов. Во-первых, мы представляем AgentErrorTaxonomy — модульную классификацию режимов сбоев, охватывающих память, рефлексию, планирование, действия и системные операции. Во-вторых, мы создаем AgentErrorBench — первый набор данных с систематически аннотированными траекториями сбоев из ALFWorld, GAIA и WebShop, что позволяет проводить анализ ошибок на основе реальных запусков агентов. В-третьих, мы предлагаем AgentDebug — фреймворк для отладки, который изолирует корневые причины сбоев и предоставляет корректирующие рекомендации, позволяя агентам восстанавливаться и улучшаться итеративно. Эксперименты на AgentErrorBench показывают, что AgentDebug достигает на 24% более высокой точности в выполнении всех шагов без ошибок и на 17% более высокой точности на каждом шаге по сравнению с самым сильным базовым методом. Помимо обнаружения, целевые рекомендации, генерируемые AgentDebug, позволяют агентам на основе LLM итеративно восстанавливаться после сбоев, что приводит к относительному улучшению успешности задач до 26% в ALFWorld, GAIA и WebShop. Эти результаты подтверждают, что принципиальная отладка является путем к созданию более надежных и адаптивных агентов на основе LLM. Код и данные будут доступны по адресу https://github.com/ulab-uiuc/AgentDebug.

English

Large Language Model (LLM) agents, which integrate planning, memory, reflection, and tool-use modules, have shown promise in solving complex, multi-step tasks. Yet their sophisticated architectures amplify vulnerability to cascading failures, where a single root-cause error propagates through subsequent decisions, leading to task failure. Current systems lack a framework that can comprehensively understand agent error in a modular and systemic way, and therefore fail to detect these errors accordingly. We address this gap with three contributions. First, we introduce the AgentErrorTaxonomy, a modular classification of failure modes spanning memory, reflection, planning, action, and system-level operations. Second, we construct AgentErrorBench, the first dataset of systematically annotated failure trajectories from ALFWorld, GAIA, and WebShop, grounding error analysis in real-world agent rollouts. Third, we propose AgentDebug, a debugging framework that isolates root-cause failures and provides corrective feedback, enabling agents to recover and iteratively improve. Experiments on AgentErrorBench show that AgentDebug achieves 24% higher all-correct accuracy and 17% higher step accuracy compared to the strongest baseline. Beyond detection, the targeted feedback generated by AgentDebug enables LLM agents to iteratively recover from failures, yielding up to 26% relative improvements in task success across ALFWorld, GAIA, and WebShop. These results establish principled debugging as a pathway to more reliable and adaptive LLM agents. The code and data will be available at https://github.com/ulab-uiuc/AgentDebug

Где агенты на основе больших языковых моделей терпят неудачи и как они могут учиться на ошибках

Where LLM Agents Fail and How They can Learn From Failures

Аннотация

Support