Quel agent provoque les échecs de tâches et quand ? Sur l'attribution automatisée des échecs dans les systèmes multi-agents basés sur des modèles de langage
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
April 30, 2025
Auteurs: Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
cs.AI
Résumé
L'attribution des échecs dans les systèmes multi-agents basés sur des LLM - identifier l'agent et l'étape responsables des échecs de tâches - fournit des indices cruciaux pour le débogage des systèmes, mais reste peu explorée et laborieuse. Dans cet article, nous proposons et formulons un nouveau domaine de recherche : l'attribution automatisée des échecs pour les systèmes multi-agents basés sur des LLM. Pour soutenir cette initiative, nous introduisons le jeu de données Who&When, comprenant des journaux d'échecs exhaustifs provenant de 127 systèmes multi-agents basés sur des LLM, avec des annotations fines liant les échecs à des agents spécifiques et aux étapes décisives d'erreur. En utilisant Who&When, nous développons et évaluons trois méthodes automatisées d'attribution des échecs, résumant leurs avantages et inconvénients respectifs. La meilleure méthode atteint une précision de 53,5 % dans l'identification des agents responsables des échecs, mais seulement 14,2 % dans la localisation des étapes d'échec, certaines méthodes performant en dessous du hasard. Même les modèles de raisonnement de pointe, tels qu'OpenAI o1 et DeepSeek R1, ne parviennent pas à atteindre une utilité pratique. Ces résultats mettent en évidence la complexité de la tâche et la nécessité de poursuivre les recherches dans ce domaine. Le code et le jeu de données sont disponibles à l'adresse https://github.com/mingyin1/Agents_Failure_Attribution.
English
Failure attribution in LLM multi-agent systems-identifying the agent and step
responsible for task failures-provides crucial clues for systems debugging but
remains underexplored and labor-intensive. In this paper, we propose and
formulate a new research area: automated failure attribution for LLM
multi-agent systems. To support this initiative, we introduce the Who&When
dataset, comprising extensive failure logs from 127 LLM multi-agent systems
with fine-grained annotations linking failures to specific agents and decisive
error steps. Using the Who&When, we develop and evaluate three automated
failure attribution methods, summarizing their corresponding pros and cons. The
best method achieves 53.5% accuracy in identifying failure-responsible agents
but only 14.2% in pinpointing failure steps, with some methods performing below
random. Even SOTA reasoning models, such as OpenAI o1 and DeepSeek R1, fail to
achieve practical usability. These results highlight the task's complexity and
the need for further research in this area. Code and dataset are available at
https://github.com/mingyin1/Agents_Failure_AttributionSummary
AI-Generated Summary