Dove falliscono gli agenti LLM e come possono imparare dai fallimenti

Abstract

I modelli linguistici di grandi dimensioni (LLM) agenti, che integrano moduli di pianificazione, memoria, riflessione e utilizzo di strumenti, hanno dimostrato potenziale nel risolvere compiti complessi e multi-step. Tuttavia, le loro architetture sofisticate amplificano la vulnerabilità a guasti a cascata, in cui un singolo errore alla radice si propaga attraverso decisioni successive, portando al fallimento del compito. I sistemi attuali mancano di un framework che possa comprendere in modo modulare e sistematico gli errori degli agenti, e quindi non riescono a rilevare questi errori in modo appropriato. Affrontiamo questa lacuna con tre contributi. In primo luogo, introduciamo l'AgentErrorTaxonomy, una classificazione modulare delle modalità di fallimento che abbraccia memoria, riflessione, pianificazione, azione e operazioni a livello di sistema. In secondo luogo, costruiamo AgentErrorBench, il primo dataset di traiettorie di fallimento annotate sistematicamente provenienti da ALFWorld, GAIA e WebShop, ancorando l'analisi degli errori a esecuzioni reali degli agenti. In terzo luogo, proponiamo AgentDebug, un framework di debug che isola i guasti alla radice e fornisce feedback correttivo, consentendo agli agenti di recuperare e migliorare in modo iterativo. Gli esperimenti su AgentErrorBench mostrano che AgentDebug raggiunge un'accuratezza totale corretta del 24% superiore e un'accuratezza per step del 17% superiore rispetto al baseline più forte. Oltre al rilevamento, il feedback mirato generato da AgentDebug consente agli agenti LLM di recuperare in modo iterativo dai fallimenti, ottenendo miglioramenti relativi fino al 26% nel successo del compito su ALFWorld, GAIA e WebShop. Questi risultati stabiliscono il debug principiato come un percorso verso agenti LLM più affidabili e adattivi. Il codice e i dati saranno disponibili su https://github.com/ulab-uiuc/AgentDebug.

English

Large Language Model (LLM) agents, which integrate planning, memory, reflection, and tool-use modules, have shown promise in solving complex, multi-step tasks. Yet their sophisticated architectures amplify vulnerability to cascading failures, where a single root-cause error propagates through subsequent decisions, leading to task failure. Current systems lack a framework that can comprehensively understand agent error in a modular and systemic way, and therefore fail to detect these errors accordingly. We address this gap with three contributions. First, we introduce the AgentErrorTaxonomy, a modular classification of failure modes spanning memory, reflection, planning, action, and system-level operations. Second, we construct AgentErrorBench, the first dataset of systematically annotated failure trajectories from ALFWorld, GAIA, and WebShop, grounding error analysis in real-world agent rollouts. Third, we propose AgentDebug, a debugging framework that isolates root-cause failures and provides corrective feedback, enabling agents to recover and iteratively improve. Experiments on AgentErrorBench show that AgentDebug achieves 24% higher all-correct accuracy and 17% higher step accuracy compared to the strongest baseline. Beyond detection, the targeted feedback generated by AgentDebug enables LLM agents to iteratively recover from failures, yielding up to 26% relative improvements in task success across ALFWorld, GAIA, and WebShop. These results establish principled debugging as a pathway to more reliable and adaptive LLM agents. The code and data will be available at https://github.com/ulab-uiuc/AgentDebug

Dove falliscono gli agenti LLM e come possono imparare dai fallimenti

Where LLM Agents Fail and How They can Learn From Failures

Abstract

Support