Qual Agente Causa Falhas nas Tarefas e Quando? Sobre a Atribuição Automática de Falhas em Sistemas Multiagentes de LLM
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
April 30, 2025
Autores: Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
cs.AI
Resumo
A atribuição de falhas em sistemas multiagentes baseados em LLMs (Large Language Models) — identificando o agente e a etapa responsáveis por falhas em tarefas — fornece pistas cruciais para a depuração de sistemas, mas permanece pouco explorada e intensiva em mão de obra. Neste artigo, propomos e formulamos uma nova área de pesquisa: a atribuição automatizada de falhas em sistemas multiagentes baseados em LLMs. Para apoiar essa iniciativa, introduzimos o conjunto de dados Who&When, que compreende registros extensivos de falhas de 127 sistemas multiagentes baseados em LLMs, com anotações detalhadas que vinculam falhas a agentes específicos e etapas decisivas de erro. Utilizando o Who&When, desenvolvemos e avaliamos três métodos automatizados de atribuição de falhas, resumindo seus respectivos prós e contras. O melhor método alcança 53,5% de precisão na identificação de agentes responsáveis por falhas, mas apenas 14,2% na identificação de etapas de falha, com alguns métodos apresentando desempenho abaixo do aleatório. Mesmo modelos de raciocínio de última geração, como o OpenAI o1 e o DeepSeek R1, não conseguem atingir usabilidade prática. Esses resultados destacam a complexidade da tarefa e a necessidade de mais pesquisas nessa área. O código e o conjunto de dados estão disponíveis em https://github.com/mingyin1/Agents_Failure_Attribution.
English
Failure attribution in LLM multi-agent systems-identifying the agent and step
responsible for task failures-provides crucial clues for systems debugging but
remains underexplored and labor-intensive. In this paper, we propose and
formulate a new research area: automated failure attribution for LLM
multi-agent systems. To support this initiative, we introduce the Who&When
dataset, comprising extensive failure logs from 127 LLM multi-agent systems
with fine-grained annotations linking failures to specific agents and decisive
error steps. Using the Who&When, we develop and evaluate three automated
failure attribution methods, summarizing their corresponding pros and cons. The
best method achieves 53.5% accuracy in identifying failure-responsible agents
but only 14.2% in pinpointing failure steps, with some methods performing below
random. Even SOTA reasoning models, such as OpenAI o1 and DeepSeek R1, fail to
achieve practical usability. These results highlight the task's complexity and
the need for further research in this area. Code and dataset are available at
https://github.com/mingyin1/Agents_Failure_Attribution