MultiAgentBench: LLMエージェントの協調と競争の評価
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
March 3, 2025
著者: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI
要旨
大規模言語モデル(LLM)は自律エージェントとして顕著な能力を示しているが、既存のベンチマークは単一エージェントタスクに焦点を当てるか、狭い領域に限定されており、マルチエージェント間の協調と競争のダイナミクスを捉えられていない。本論文では、多様なインタラクティブなシナリオにわたるLLMベースのマルチエージェントシステムを評価するための包括的なベンチマーク、MultiAgentBenchを紹介する。我々のフレームワークは、タスクの完了だけでなく、新たなマイルストーンベースの主要業績評価指標を用いて協力と競争の質も測定する。さらに、スター、チェーン、ツリー、グラフといった様々な協調プロトコルや、グループディスカッションや認知的計画といった革新的な戦略を評価する。特に、gpt-4o-miniは平均で最高のタスクスコアを達成し、研究シナリオではグラフ構造が協調プロトコルの中で最も優れたパフォーマンスを示し、認知的計画はマイルストーン達成率を3%向上させた。コードとデータセットはhttps://github.com/MultiagentBench/MARBLEで公開されている。
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous
agents, yet existing benchmarks either focus on single-agent tasks or are
confined to narrow domains, failing to capture the dynamics of multi-agent
coordination and competition. In this paper, we introduce MultiAgentBench, a
comprehensive benchmark designed to evaluate LLM-based multi-agent systems
across diverse, interactive scenarios. Our framework measures not only task
completion but also the quality of collaboration and competition using novel,
milestone-based key performance indicators. Moreover, we evaluate various
coordination protocols (including star, chain, tree, and graph topologies) and
innovative strategies such as group discussion and cognitive planning. Notably,
gpt-4o-mini reaches the average highest task score, graph structure performs
the best among coordination protocols in the research scenario, and cognitive
planning improves milestone achievement rates by 3%. Code and datasets are
public available at https://github.com/MultiagentBench/MARBLE.Summary
AI-Generated Summary