MultiAgentBench: Bewertung der Zusammenarbeit und des Wettbewerbs von LLM-AgentenMultiAgentBench: Evaluating the Collaboration and Competition of LLM
agents
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten als autonome Agenten gezeigt, doch bestehende Benchmarks konzentrieren sich entweder auf Einzelagenten-Aufgaben oder sind auf enge Domänen beschränkt, wodurch sie die Dynamik der Multi-Agenten-Koordination und -Konkurrenz nicht erfassen. In diesem Artikel stellen wir MultiAgentBench vor, einen umfassenden Benchmark, der entwickelt wurde, um LLM-basierte Multi-Agenten-Systeme in diversen, interaktiven Szenarien zu evaluieren. Unser Framework misst nicht nur die Aufgabenbewältigung, sondern auch die Qualität der Zusammenarbeit und Konkurrenz mithilfe neuartiger, meilensteinbasierter Key Performance Indicators. Darüber hinaus evaluieren wir verschiedene Koordinationsprotokolle (einschließlich Stern-, Ketten-, Baum- und Graphentopologien) sowie innovative Strategien wie Gruppendiskussionen und kognitive Planung. Bemerkenswerterweise erreicht gpt-4o-mini die durchschnittlich höchste Aufgabenbewertung, die Graphenstruktur schneidet unter den Koordinationsprotokollen im Forschungsszenario am besten ab, und kognitive Planung verbessert die Meilenstein-Erreichungsraten um 3%. Code und Datensätze sind öffentlich verfügbar unter https://github.com/MultiagentBench/MARBLE.