ChatPaper.aiChatPaper

MultiAgentBench: Evaluación de la Colaboración y Competencia de Agentes LLM

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

March 3, 2025
Autores: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables como agentes autónomos, sin embargo, los puntos de referencia existentes se centran en tareas de un solo agente o se limitan a dominios estrechos, sin capturar la dinámica de la coordinación y competencia multiagente. En este artículo, presentamos MultiAgentBench, un punto de referencia integral diseñado para evaluar sistemas multiagente basados en LLMs en diversos escenarios interactivos. Nuestro marco no solo mide la finalización de tareas, sino también la calidad de la colaboración y la competencia utilizando indicadores clave de rendimiento novedosos basados en hitos. Además, evaluamos varios protocolos de coordinación (incluyendo topologías en estrella, cadena, árbol y grafo) y estrategias innovadoras como la discusión grupal y la planificación cognitiva. Cabe destacar que gpt-4o-mini alcanza la puntuación promedio más alta en tareas, la estructura de grafo es la que mejor desempeño tiene entre los protocolos de coordinación en el escenario de investigación, y la planificación cognitiva mejora las tasas de logro de hitos en un 3%. El código y los conjuntos de datos están disponibles públicamente en https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous agents, yet existing benchmarks either focus on single-agent tasks or are confined to narrow domains, failing to capture the dynamics of multi-agent coordination and competition. In this paper, we introduce MultiAgentBench, a comprehensive benchmark designed to evaluate LLM-based multi-agent systems across diverse, interactive scenarios. Our framework measures not only task completion but also the quality of collaboration and competition using novel, milestone-based key performance indicators. Moreover, we evaluate various coordination protocols (including star, chain, tree, and graph topologies) and innovative strategies such as group discussion and cognitive planning. Notably, gpt-4o-mini reaches the average highest task score, graph structure performs the best among coordination protocols in the research scenario, and cognitive planning improves milestone achievement rates by 3%. Code and datasets are public available at https://github.com/MultiagentBench/MARBLE.

Summary

AI-Generated Summary

PDF273March 5, 2025