Welcher Agent verursacht Aufgabenfehler und wann? Zur automatisierten Fehlerzuweisung in Multi-Agenten-Systemen mit großen Sprachmodellen
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
April 30, 2025
Autoren: Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
cs.AI
Zusammenfassung
Die Fehlerzuweisung in Multi-Agenten-Systemen mit großen Sprachmodellen (LLM) – die Identifizierung des verantwortlichen Agenten und Schritts bei Aufgabenfehlern – liefert entscheidende Hinweise für das Debugging von Systemen, bleibt jedoch weitgehend unerforscht und arbeitsintensiv. In diesem Artikel schlagen wir ein neues Forschungsgebiet vor und formulieren es: die automatisierte Fehlerzuweisung für LLM-Multi-Agenten-Systeme. Um diese Initiative zu unterstützen, führen wir den Who&When-Datensatz ein, der umfangreiche Fehlerprotokolle aus 127 LLM-Multi-Agenten-Systemen mit detaillierten Annotationen enthält, die Fehler mit spezifischen Agenten und entscheidenden Fehlerschritten verknüpfen. Mit Who&When entwickeln und evaluieren wir drei automatisierte Methoden zur Fehlerzuweisung und fassen deren jeweilige Vor- und Nachteile zusammen. Die beste Methode erreicht eine Genauigkeit von 53,5 % bei der Identifizierung der für Fehler verantwortlichen Agenten, jedoch nur 14,2 % bei der Bestimmung der Fehlerschritte, wobei einige Methoden unterhalb des Zufallsniveaus liegen. Selbst State-of-the-Art-Reasoning-Modelle wie OpenAI o1 und DeepSeek R1 erreichen keine praktische Nutzbarkeit. Diese Ergebnisse unterstreichen die Komplexität der Aufgabe und den Bedarf an weiterer Forschung in diesem Bereich. Code und Datensatz sind verfügbar unter https://github.com/mingyin1/Agents_Failure_Attribution.
English
Failure attribution in LLM multi-agent systems-identifying the agent and step
responsible for task failures-provides crucial clues for systems debugging but
remains underexplored and labor-intensive. In this paper, we propose and
formulate a new research area: automated failure attribution for LLM
multi-agent systems. To support this initiative, we introduce the Who&When
dataset, comprising extensive failure logs from 127 LLM multi-agent systems
with fine-grained annotations linking failures to specific agents and decisive
error steps. Using the Who&When, we develop and evaluate three automated
failure attribution methods, summarizing their corresponding pros and cons. The
best method achieves 53.5% accuracy in identifying failure-responsible agents
but only 14.2% in pinpointing failure steps, with some methods performing below
random. Even SOTA reasoning models, such as OpenAI o1 and DeepSeek R1, fail to
achieve practical usability. These results highlight the task's complexity and
the need for further research in this area. Code and dataset are available at
https://github.com/mingyin1/Agents_Failure_AttributionSummary
AI-Generated Summary