Какой агент вызывает сбои задач и когда? Об автоматизированном определении причин сбоев в мультиагентных системах с использованием языковых моделей
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
April 30, 2025
Авторы: Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
cs.AI
Аннотация
Определение причин сбоев в мультиагентных системах с использованием больших языковых моделей (LLM) — выявление агента и этапа, ответственных за неудачи в выполнении задач, — предоставляет важные подсказки для отладки систем, однако эта область остается недостаточно изученной и трудоемкой. В данной статье мы предлагаем и формулируем новую область исследований: автоматизированное определение причин сбоев в мультиагентных системах с LLM. Для поддержки этой инициативы мы представляем набор данных Who&When, содержащий обширные журналы сбоев из 127 мультиагентных систем с LLM, снабженные детализированными аннотациями, связывающими сбои с конкретными агентами и ключевыми ошибочными шагами. Используя Who&When, мы разрабатываем и оцениваем три метода автоматизированного определения причин сбоев, обобщая их преимущества и недостатки. Лучший метод достигает точности 53,5% в идентификации агентов, ответственных за сбои, но только 14,2% в определении ошибочных шагов, при этом некоторые методы показывают результаты ниже случайных. Даже передовые модели рассуждений, такие как OpenAI o1 и DeepSeek R1, не достигают практической применимости. Эти результаты подчеркивают сложность задачи и необходимость дальнейших исследований в этой области. Код и набор данных доступны по адресу https://github.com/mingyin1/Agents_Failure_Attribution.
English
Failure attribution in LLM multi-agent systems-identifying the agent and step
responsible for task failures-provides crucial clues for systems debugging but
remains underexplored and labor-intensive. In this paper, we propose and
formulate a new research area: automated failure attribution for LLM
multi-agent systems. To support this initiative, we introduce the Who&When
dataset, comprising extensive failure logs from 127 LLM multi-agent systems
with fine-grained annotations linking failures to specific agents and decisive
error steps. Using the Who&When, we develop and evaluate three automated
failure attribution methods, summarizing their corresponding pros and cons. The
best method achieves 53.5% accuracy in identifying failure-responsible agents
but only 14.2% in pinpointing failure steps, with some methods performing below
random. Even SOTA reasoning models, such as OpenAI o1 and DeepSeek R1, fail to
achieve practical usability. These results highlight the task's complexity and
the need for further research in this area. Code and dataset are available at
https://github.com/mingyin1/Agents_Failure_AttributionSummary
AI-Generated Summary