Quale Agente Causa i Fallimenti delle Attività e Quando? Sull'Attribuzione Automatica dei Fallimenti nei Sistemi Multi-Agente basati su LLM
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
April 30, 2025
Autori: Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
cs.AI
Abstract
L'attribuzione degli errori nei sistemi multi-agente basati su LLM (Large Language Models) - identificando l'agente e il passaggio responsabile dei fallimenti nelle attività - fornisce indizi cruciali per il debug dei sistemi, ma rimane un'area poco esplorata e laboriosa. In questo articolo, proponiamo e formuliamo una nuova area di ricerca: l'attribuzione automatica degli errori per i sistemi multi-agente basati su LLM. Per supportare questa iniziativa, introduciamo il dataset Who&When, che comprende ampi log di fallimenti provenienti da 127 sistemi multi-agente basati su LLM, con annotazioni dettagliate che collegano gli errori a specifici agenti e ai passaggi decisivi che li hanno causati. Utilizzando Who&When, sviluppiamo e valutiamo tre metodi automatizzati per l'attribuzione degli errori, riassumendone i rispettivi pro e contro. Il metodo migliore raggiunge un'accuratezza del 53,5% nell'identificare gli agenti responsabili degli errori, ma solo del 14,2% nell'individuare i passaggi critici, con alcuni metodi che performano al di sotto del caso casuale. Anche modelli di ragionamento all'avanguardia, come OpenAI o1 e DeepSeek R1, non riescono a raggiungere una praticabilità effettiva. Questi risultati evidenziano la complessità del compito e la necessità di ulteriori ricerche in questo ambito. Codice e dataset sono disponibili all'indirizzo https://github.com/mingyin1/Agents_Failure_Attribution.
English
Failure attribution in LLM multi-agent systems-identifying the agent and step
responsible for task failures-provides crucial clues for systems debugging but
remains underexplored and labor-intensive. In this paper, we propose and
formulate a new research area: automated failure attribution for LLM
multi-agent systems. To support this initiative, we introduce the Who&When
dataset, comprising extensive failure logs from 127 LLM multi-agent systems
with fine-grained annotations linking failures to specific agents and decisive
error steps. Using the Who&When, we develop and evaluate three automated
failure attribution methods, summarizing their corresponding pros and cons. The
best method achieves 53.5% accuracy in identifying failure-responsible agents
but only 14.2% in pinpointing failure steps, with some methods performing below
random. Even SOTA reasoning models, such as OpenAI o1 and DeepSeek R1, fail to
achieve practical usability. These results highlight the task's complexity and
the need for further research in this area. Code and dataset are available at
https://github.com/mingyin1/Agents_Failure_Attribution