MultiAgentBench: Оценка взаимодействия и конкуренции агентов на основе языковых моделейMultiAgentBench: Evaluating the Collaboration and Competition of LLM
agents
Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности в качестве автономных агентов, однако существующие бенчмарки либо сосредоточены на задачах для одного агента, либо ограничены узкими областями, не учитывая динамику координации и конкуренции между несколькими агентами. В данной статье мы представляем MultiAgentBench — всеобъемлющий бенчмарк, разработанный для оценки многоагентных систем на основе LLM в разнообразных интерактивных сценариях. Наша структура измеряет не только выполнение задач, но и качество сотрудничества и конкуренции с использованием новых ключевых показателей эффективности, основанных на этапах. Кроме того, мы оцениваем различные протоколы координации (включая звездообразную, цепочку, дерево и графовую топологии) и инновационные стратегии, такие как групповое обсуждение и когнитивное планирование. Примечательно, что gpt-4o-mini достигает наивысшего среднего балла за выполнение задач, графовая структура показывает наилучшие результаты среди протоколов координации в исследовательском сценарии, а когнитивное планирование повышает уровень достижения этапов на 3%. Код и наборы данных доступны по адресу https://github.com/MultiagentBench/MARBLE.