ChatPaper.aiChatPaper

MultiAgentBench : Évaluation de la collaboration et de la compétition entre agents LLM

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

March 3, 2025
Auteurs: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI

Résumé

Les modèles de langage de grande taille (LLM) ont démontré des capacités remarquables en tant qu'agents autonomes, mais les benchmarks existants se concentrent soit sur des tâches mono-agent, soit sont limités à des domaines restreints, ne parvenant pas à capturer la dynamique de la coordination et de la compétition multi-agents. Dans cet article, nous présentons MultiAgentBench, un benchmark complet conçu pour évaluer les systèmes multi-agents basés sur des LLM dans divers scénarios interactifs. Notre cadre de mesure évalue non seulement l'accomplissement des tâches, mais aussi la qualité de la collaboration et de la compétition en utilisant de nouveaux indicateurs clés de performance basés sur des jalons. De plus, nous évaluons divers protocoles de coordination (y compris les topologies en étoile, en chaîne, en arbre et en graphe) ainsi que des stratégies innovantes telles que la discussion de groupe et la planification cognitive. Notamment, gpt-4o-mini atteint le score moyen le plus élevé pour les tâches, la structure en graphe se révèle la meilleure parmi les protocoles de coordination dans le scénario de recherche, et la planification cognitive améliore les taux de réussite des jalons de 3 %. Le code et les jeux de données sont disponibles publiquement à l'adresse https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous agents, yet existing benchmarks either focus on single-agent tasks or are confined to narrow domains, failing to capture the dynamics of multi-agent coordination and competition. In this paper, we introduce MultiAgentBench, a comprehensive benchmark designed to evaluate LLM-based multi-agent systems across diverse, interactive scenarios. Our framework measures not only task completion but also the quality of collaboration and competition using novel, milestone-based key performance indicators. Moreover, we evaluate various coordination protocols (including star, chain, tree, and graph topologies) and innovative strategies such as group discussion and cognitive planning. Notably, gpt-4o-mini reaches the average highest task score, graph structure performs the best among coordination protocols in the research scenario, and cognitive planning improves milestone achievement rates by 3%. Code and datasets are public available at https://github.com/MultiagentBench/MARBLE.

Summary

AI-Generated Summary

PDF273March 5, 2025