Waar LLM-agents falen en hoe ze kunnen leren van fouten

Samenvatting

Large Language Model (LLM)-agenten, die planning, geheugen, reflectie en tool-gebruikmodules integreren, hebben potentie getoond in het oplossen van complexe, meerstaps taken. Hun geavanceerde architecturen vergroten echter ook de kwetsbaarheid voor cascade-fouten, waarbij een enkele oorzaak van een fout zich verspreidt door opeenvolgende beslissingen, wat leidt tot taakfalen. Huidige systemen missen een raamwerk dat agentfouten op een modulaire en systemische manier volledig kan begrijpen, en slagen er daarom niet in deze fouten adequaat te detecteren. Wij vullen deze leemte met drie bijdragen. Ten eerste introduceren we de AgentErrorTaxonomy, een modulaire classificatie van faalmodi die geheugen, reflectie, planning, actie en systeemniveau-operaties omvat. Ten tweede construeren we AgentErrorBench, de eerste dataset van systematisch geannoteerde faaltrajecten uit ALFWorld, GAIA en WebShop, die foutenanalyse verankert in real-world agent-rollouts. Ten derde stellen we AgentDebug voor, een debugraamwerk dat oorzaakfouten isoleert en corrigerende feedback biedt, waardoor agenten kunnen herstellen en iteratief kunnen verbeteren. Experimenten op AgentErrorBench tonen aan dat AgentDebug een 24% hogere all-correct nauwkeurigheid en een 17% hogere stapnauwkeurigheid bereikt in vergelijking met de sterkste baseline. Naast detectie stelt de gerichte feedback gegenereerd door AgentDebug LLM-agenten in staat om iteratief te herstellen van fouten, wat resulteert in relatieve verbeteringen van tot 26% in taaksucces over ALFWorld, GAIA en WebShop. Deze resultaten vestigen principieel debuggen als een pad naar betrouwbaardere en adaptievere LLM-agenten. De code en data zullen beschikbaar zijn op https://github.com/ulab-uiuc/AgentDebug.

English

Large Language Model (LLM) agents, which integrate planning, memory, reflection, and tool-use modules, have shown promise in solving complex, multi-step tasks. Yet their sophisticated architectures amplify vulnerability to cascading failures, where a single root-cause error propagates through subsequent decisions, leading to task failure. Current systems lack a framework that can comprehensively understand agent error in a modular and systemic way, and therefore fail to detect these errors accordingly. We address this gap with three contributions. First, we introduce the AgentErrorTaxonomy, a modular classification of failure modes spanning memory, reflection, planning, action, and system-level operations. Second, we construct AgentErrorBench, the first dataset of systematically annotated failure trajectories from ALFWorld, GAIA, and WebShop, grounding error analysis in real-world agent rollouts. Third, we propose AgentDebug, a debugging framework that isolates root-cause failures and provides corrective feedback, enabling agents to recover and iteratively improve. Experiments on AgentErrorBench show that AgentDebug achieves 24% higher all-correct accuracy and 17% higher step accuracy compared to the strongest baseline. Beyond detection, the targeted feedback generated by AgentDebug enables LLM agents to iteratively recover from failures, yielding up to 26% relative improvements in task success across ALFWorld, GAIA, and WebShop. These results establish principled debugging as a pathway to more reliable and adaptive LLM agents. The code and data will be available at https://github.com/ulab-uiuc/AgentDebug

Waar LLM-agents falen en hoe ze kunnen leren van fouten

Where LLM Agents Fail and How They can Learn From Failures

Samenvatting

Support