MultiAgentBench: Avaliando a Colaboração e Competição de Agentes de LLM
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
March 3, 2025
Autores: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis como agentes autônomos, porém os benchmarks existentes ou se concentram em tarefas de agente único ou são restritos a domínios estreitos, falhando em capturar a dinâmica de coordenação e competição multiagente. Neste artigo, apresentamos o MultiAgentBench, um benchmark abrangente projetado para avaliar sistemas multiagente baseados em LLMs em diversos cenários interativos. Nosso framework mede não apenas a conclusão de tarefas, mas também a qualidade da colaboração e competição, utilizando indicadores-chave de desempenho baseados em marcos. Além disso, avaliamos vários protocolos de coordenação (incluindo topologias em estrela, cadeia, árvore e grafo) e estratégias inovadoras, como discussão em grupo e planejamento cognitivo. Notavelmente, o gpt-4o-mini alcança a pontuação média mais alta em tarefas, a estrutura de grafo apresenta o melhor desempenho entre os protocolos de coordenação no cenário de pesquisa, e o planejamento cognitivo aumenta as taxas de conquista de marcos em 3%. O código e os conjuntos de dados estão disponíveis publicamente em https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous
agents, yet existing benchmarks either focus on single-agent tasks or are
confined to narrow domains, failing to capture the dynamics of multi-agent
coordination and competition. In this paper, we introduce MultiAgentBench, a
comprehensive benchmark designed to evaluate LLM-based multi-agent systems
across diverse, interactive scenarios. Our framework measures not only task
completion but also the quality of collaboration and competition using novel,
milestone-based key performance indicators. Moreover, we evaluate various
coordination protocols (including star, chain, tree, and graph topologies) and
innovative strategies such as group discussion and cognitive planning. Notably,
gpt-4o-mini reaches the average highest task score, graph structure performs
the best among coordination protocols in the research scenario, and cognitive
planning improves milestone achievement rates by 3%. Code and datasets are
public available at https://github.com/MultiagentBench/MARBLE.Summary
AI-Generated Summary