MultiAgentBench: Bewertung der Zusammenarbeit und des Wettbewerbs von LLM-Agenten
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
March 3, 2025
Autoren: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten als autonome Agenten gezeigt, doch bestehende Benchmarks konzentrieren sich entweder auf Einzelagenten-Aufgaben oder sind auf enge Domänen beschränkt, wodurch sie die Dynamik der Multi-Agenten-Koordination und -Konkurrenz nicht erfassen. In diesem Artikel stellen wir MultiAgentBench vor, einen umfassenden Benchmark, der entwickelt wurde, um LLM-basierte Multi-Agenten-Systeme in diversen, interaktiven Szenarien zu evaluieren. Unser Framework misst nicht nur die Aufgabenbewältigung, sondern auch die Qualität der Zusammenarbeit und Konkurrenz mithilfe neuartiger, meilensteinbasierter Key Performance Indicators. Darüber hinaus evaluieren wir verschiedene Koordinationsprotokolle (einschließlich Stern-, Ketten-, Baum- und Graphentopologien) sowie innovative Strategien wie Gruppendiskussionen und kognitive Planung. Bemerkenswerterweise erreicht gpt-4o-mini die durchschnittlich höchste Aufgabenbewertung, die Graphenstruktur schneidet unter den Koordinationsprotokollen im Forschungsszenario am besten ab, und kognitive Planung verbessert die Meilenstein-Erreichungsraten um 3%. Code und Datensätze sind öffentlich verfügbar unter https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous
agents, yet existing benchmarks either focus on single-agent tasks or are
confined to narrow domains, failing to capture the dynamics of multi-agent
coordination and competition. In this paper, we introduce MultiAgentBench, a
comprehensive benchmark designed to evaluate LLM-based multi-agent systems
across diverse, interactive scenarios. Our framework measures not only task
completion but also the quality of collaboration and competition using novel,
milestone-based key performance indicators. Moreover, we evaluate various
coordination protocols (including star, chain, tree, and graph topologies) and
innovative strategies such as group discussion and cognitive planning. Notably,
gpt-4o-mini reaches the average highest task score, graph structure performs
the best among coordination protocols in the research scenario, and cognitive
planning improves milestone achievement rates by 3%. Code and datasets are
public available at https://github.com/MultiagentBench/MARBLE.Summary
AI-Generated Summary