MultiAgentBench: LLMエージェントの協調と競争の評価MultiAgentBench: Evaluating the Collaboration and Competition of LLM
agents
大規模言語モデル(LLM)は自律エージェントとして顕著な能力を示しているが、既存のベンチマークは単一エージェントタスクに焦点を当てるか、狭い領域に限定されており、マルチエージェント間の協調と競争のダイナミクスを捉えられていない。本論文では、多様なインタラクティブなシナリオにわたるLLMベースのマルチエージェントシステムを評価するための包括的なベンチマーク、MultiAgentBenchを紹介する。我々のフレームワークは、タスクの完了だけでなく、新たなマイルストーンベースの主要業績評価指標を用いて協力と競争の質も測定する。さらに、スター、チェーン、ツリー、グラフといった様々な協調プロトコルや、グループディスカッションや認知的計画といった革新的な戦略を評価する。特に、gpt-4o-miniは平均で最高のタスクスコアを達成し、研究シナリオではグラフ構造が協調プロトコルの中で最も優れたパフォーマンスを示し、認知的計画はマイルストーン達成率を3%向上させた。コードとデータセットはhttps://github.com/MultiagentBench/MARBLEで公開されている。