MultiAgentBench: Valutazione della Collaborazione e Competizione tra Agenti LLM
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
March 3, 2025
Autori: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI
Abstract
I Large Language Models (LLM) hanno dimostrato capacità notevoli come agenti autonomi, tuttavia i benchmark esistenti si concentrano su compiti a singolo agente o sono limitati a domini ristretti, non riuscendo a catturare le dinamiche di coordinamento e competizione multi-agente. In questo articolo, introduciamo MultiAgentBench, un benchmark completo progettato per valutare sistemi multi-agente basati su LLM in scenari interattivi e diversificati. Il nostro framework misura non solo il completamento dei compiti, ma anche la qualità della collaborazione e della competizione utilizzando nuovi indicatori chiave di prestazione basati su milestone. Inoltre, valutiamo vari protocolli di coordinamento (includendo topologie a stella, catena, albero e grafo) e strategie innovative come la discussione di gruppo e la pianificazione cognitiva. In particolare, gpt-4o-mini raggiunge il punteggio medio più alto nei compiti, la struttura a grafo si dimostra la migliore tra i protocolli di coordinamento nello scenario di ricerca, e la pianificazione cognitiva migliora i tassi di raggiungimento delle milestone del 3%. Codice e dataset sono disponibili pubblicamente all'indirizzo https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous
agents, yet existing benchmarks either focus on single-agent tasks or are
confined to narrow domains, failing to capture the dynamics of multi-agent
coordination and competition. In this paper, we introduce MultiAgentBench, a
comprehensive benchmark designed to evaluate LLM-based multi-agent systems
across diverse, interactive scenarios. Our framework measures not only task
completion but also the quality of collaboration and competition using novel,
milestone-based key performance indicators. Moreover, we evaluate various
coordination protocols (including star, chain, tree, and graph topologies) and
innovative strategies such as group discussion and cognitive planning. Notably,
gpt-4o-mini reaches the average highest task score, graph structure performs
the best among coordination protocols in the research scenario, and cognitive
planning improves milestone achievement rates by 3%. Code and datasets are
public available at https://github.com/MultiagentBench/MARBLE.Summary
AI-Generated Summary