Welke Agent Veroorzaakt Taakfouten en Wanneer? Over Geautomatiseerde Fouttoewijzing in LLM Multi-Agent Systemen
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
April 30, 2025
Auteurs: Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
cs.AI
Samenvatting
Fouttoewijzing in LLM multi-agent systemen - het identificeren van de agent en stap die verantwoordelijk zijn voor taakfouten - biedt cruciale aanwijzingen voor het debuggen van systemen, maar blijft onderbelicht en arbeidsintensief. In dit artikel stellen en formuleren we een nieuw onderzoeksgebied voor: geautomatiseerde fouttoewijzing voor LLM multi-agent systemen. Om dit initiatief te ondersteunen, introduceren we de Who&When-dataset, die uitgebreide foutlogs bevat van 127 LLM multi-agent systemen met gedetailleerde annotaties die fouten koppelen aan specifieke agents en beslissende foutstappen. Met behulp van Who&When ontwikkelen en evalueren we drie geautomatiseerde methoden voor fouttoewijzing, waarbij we de bijbehorende voor- en nadelen samenvatten. De beste methode behaalt een nauwkeurigheid van 53,5% in het identificeren van verantwoordelijke agents, maar slechts 14,2% in het aanwijzen van foutstappen, waarbij sommige methoden onder de kansscore presteren. Zelfs state-of-the-art redeneermodellen, zoals OpenAI o1 en DeepSeek R1, slagen er niet in praktische bruikbaarheid te bereiken. Deze resultaten benadrukken de complexiteit van de taak en de noodzaak van verder onderzoek op dit gebied. Code en dataset zijn beschikbaar op https://github.com/mingyin1/Agents_Failure_Attribution.
English
Failure attribution in LLM multi-agent systems-identifying the agent and step
responsible for task failures-provides crucial clues for systems debugging but
remains underexplored and labor-intensive. In this paper, we propose and
formulate a new research area: automated failure attribution for LLM
multi-agent systems. To support this initiative, we introduce the Who&When
dataset, comprising extensive failure logs from 127 LLM multi-agent systems
with fine-grained annotations linking failures to specific agents and decisive
error steps. Using the Who&When, we develop and evaluate three automated
failure attribution methods, summarizing their corresponding pros and cons. The
best method achieves 53.5% accuracy in identifying failure-responsible agents
but only 14.2% in pinpointing failure steps, with some methods performing below
random. Even SOTA reasoning models, such as OpenAI o1 and DeepSeek R1, fail to
achieve practical usability. These results highlight the task's complexity and
the need for further research in this area. Code and dataset are available at
https://github.com/mingyin1/Agents_Failure_Attribution