ChatPaper.aiChatPaper

MultiAgentBench: Evaluatie van de samenwerking en competitie van LLM-agenten

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

March 3, 2025
Auteurs: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond als autonome agents, maar bestaande benchmarks richten zich ofwel op taken voor één agent of zijn beperkt tot smalle domeinen, waardoor ze de dynamiek van multi-agent coördinatie en competitie niet vastleggen. In dit artikel introduceren we MultiAgentBench, een uitgebreide benchmark die is ontworpen om LLM-gebaseerde multi-agent systemen te evalueren in diverse, interactieve scenario's. Ons framework meet niet alleen taakvoltooiing, maar ook de kwaliteit van samenwerking en competitie met behulp van nieuwe, mijlpaal-gebaseerde prestatie-indicatoren. Bovendien evalueren we verschillende coördinatieprotocollen (inclusief ster-, ketting-, boom- en grafstructuren) en innovatieve strategieën zoals groepsdiscussie en cognitieve planning. Opvallend is dat gpt-4o-mini de gemiddeld hoogste taakscore behaalt, de grafstructuur het beste presteert onder de coördinatieprotocollen in het onderzoeksscenario, en cognitieve planning de mijlpaalbehaalsnelheid met 3% verbetert. Code en datasets zijn publiek beschikbaar op https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous agents, yet existing benchmarks either focus on single-agent tasks or are confined to narrow domains, failing to capture the dynamics of multi-agent coordination and competition. In this paper, we introduce MultiAgentBench, a comprehensive benchmark designed to evaluate LLM-based multi-agent systems across diverse, interactive scenarios. Our framework measures not only task completion but also the quality of collaboration and competition using novel, milestone-based key performance indicators. Moreover, we evaluate various coordination protocols (including star, chain, tree, and graph topologies) and innovative strategies such as group discussion and cognitive planning. Notably, gpt-4o-mini reaches the average highest task score, graph structure performs the best among coordination protocols in the research scenario, and cognitive planning improves milestone achievement rates by 3%. Code and datasets are public available at https://github.com/MultiagentBench/MARBLE.

Summary

AI-Generated Summary

PDF273March 5, 2025