ChatPaper.aiChatPaper

Бенчмаркинг коллективного интеллекта языковых моделей

Benchmarking LLMs' Swarm intelligence

May 7, 2025
Авторы: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют потенциал для сложных рассуждений, однако их способность к эмерджентной координации в многоагентных системах (MAS) при работе в условиях строгих ограничений — таких как ограниченное локальное восприятие и коммуникация, характерные для природных роев — остается в значительной степени неисследованной, особенно в контексте нюансов роевого интеллекта. Существующие бенчмарки часто не полностью охватывают уникальные проблемы децентрализованной координации, возникающие, когда агенты оперируют неполной пространственно-временной информацией. Чтобы устранить этот пробел, мы представляем SwarmBench — новый бенчмарк, разработанный для систематической оценки способностей LLM к роевому интеллекту в роли децентрализованных агентов. SwarmBench включает пять базовых задач координации MAS в настраиваемой 2D-среде, вынуждая агентов полагаться в основном на локальные сенсорные данные (обзор k x k) и локальную коммуникацию. Мы предлагаем метрики для оценки эффективности координации и анализируем эмерджентную групповую динамику. Оценивая несколько ведущих LLM в условиях zero-shot, мы обнаруживаем значительные различия в производительности между задачами, подчеркивая сложности, вызванные ограничениями локальной информации. Хотя некоторая координация возникает, результаты указывают на ограничения в надежном планировании и формировании стратегий в условиях неопределенности в этих децентрализованных сценариях. Оценка LLM в условиях, приближенных к роевым, имеет решающее значение для реализации их потенциала в будущих децентрализованных системах. Мы выпускаем SwarmBench как открытый, расширяемый инструментарий, построенный на основе настраиваемой и масштабируемой физической системы с определенными механическими свойствами. Он предоставляет среды, промпты, скрипты для оценки и всеобъемлющие экспериментальные данные, сгенерированные в ходе исследований, с целью способствовать воспроизводимым исследованиям в области координации MAS на основе LLM и теоретических основ воплощенных MAS. Наш репозиторий кода доступен по адресу https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.

Summary

AI-Generated Summary

PDF130May 8, 2025