MultiAgentBench: Evaluatie van de samenwerking en competitie van LLM-agentenMultiAgentBench: Evaluating the Collaboration and Competition of LLM
agents
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond als autonome agents, maar bestaande benchmarks richten zich ofwel op taken voor één agent of zijn beperkt tot smalle domeinen, waardoor ze de dynamiek van multi-agent coördinatie en competitie niet vastleggen. In dit artikel introduceren we MultiAgentBench, een uitgebreide benchmark die is ontworpen om LLM-gebaseerde multi-agent systemen te evalueren in diverse, interactieve scenario's. Ons framework meet niet alleen taakvoltooiing, maar ook de kwaliteit van samenwerking en competitie met behulp van nieuwe, mijlpaal-gebaseerde prestatie-indicatoren. Bovendien evalueren we verschillende coördinatieprotocollen (inclusief ster-, ketting-, boom- en grafstructuren) en innovatieve strategieën zoals groepsdiscussie en cognitieve planning. Opvallend is dat gpt-4o-mini de gemiddeld hoogste taakscore behaalt, de grafstructuur het beste presteert onder de coördinatieprotocollen in het onderzoeksscenario, en cognitieve planning de mijlpaalbehaalsnelheid met 3% verbetert. Code en datasets zijn publiek beschikbaar op https://github.com/MultiagentBench/MARBLE.