Evaluación comparativa de la inteligencia de enjambre en modelos de lenguaje grandes
Benchmarking LLMs' Swarm intelligence
May 7, 2025
Autores: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para el razonamiento complejo, pero su capacidad para la coordinación emergente en Sistemas Multiagente (MAS, por sus siglas en inglés) cuando operan bajo restricciones estrictas—como la percepción y comunicación local limitada, características de los enjambres naturales—sigue siendo en gran medida inexplorada, particularmente en lo que respecta a los matices de la inteligencia de enjambre. Los puntos de referencia existentes a menudo no capturan completamente los desafíos únicos de la coordinación descentralizada que surgen cuando los agentes operan con información espacio-temporal incompleta. Para cerrar esta brecha, presentamos SwarmBench, un nuevo punto de referencia diseñado para evaluar sistemáticamente las capacidades de inteligencia de enjambre de los LLMs que actúan como agentes descentralizados. SwarmBench incluye cinco tareas fundamentales de coordinación MAS dentro de un entorno configurable de cuadrícula 2D, obligando a los agentes a depender principalmente de la entrada sensorial local (vista de k x k) y la comunicación local. Proponemos métricas para la efectividad de la coordinación y analizamos las dinámicas grupales emergentes. Al evaluar varios LLMs líderes en un entorno de cero disparos, encontramos variaciones significativas en el rendimiento entre las tareas, destacando las dificultades planteadas por las restricciones de información local. Aunque surge cierta coordinación, los resultados indican limitaciones en la planificación robusta y la formación de estrategias bajo incertidumbre en estos escenarios descentralizados. Evaluar los LLMs bajo condiciones similares a las de un enjambre es crucial para realizar su potencial en futuros sistemas descentralizados. Publicamos SwarmBench como un kit de herramientas abierto y extensible—construido sobre un sistema físico personalizable y escalable con propiedades mecánicas definidas. Proporciona entornos, indicaciones, scripts de evaluación y los conjuntos de datos experimentales completos generados, con el objetivo de fomentar la investigación reproducible en la coordinación MAS basada en LLMs y los fundamentos teóricos de los MAS Encarnados. Nuestro repositorio de código está disponible en https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their
capacity for emergent coordination in Multi-Agent Systems (MAS) when operating
under strict constraints-such as limited local perception and communication,
characteristic of natural swarms-remains largely unexplored, particularly
concerning the nuances of swarm intelligence. Existing benchmarks often do not
fully capture the unique challenges of decentralized coordination that arise
when agents operate with incomplete spatio-temporal information. To bridge this
gap, we introduce SwarmBench, a novel benchmark designed to systematically
evaluate the swarm intelligence capabilities of LLMs acting as decentralized
agents. SwarmBench features five foundational MAS coordination tasks within a
configurable 2D grid environment, forcing agents to rely primarily on local
sensory input (k x k view) and local communication. We propose metrics for
coordination effectiveness and analyze emergent group dynamics. Evaluating
several leading LLMs in a zero-shot setting, we find significant performance
variations across tasks, highlighting the difficulties posed by local
information constraints. While some coordination emerges, results indicate
limitations in robust planning and strategy formation under uncertainty in
these decentralized scenarios. Assessing LLMs under swarm-like conditions is
crucial for realizing their potential in future decentralized systems. We
release SwarmBench as an open, extensible toolkit-built upon a customizable and
scalable physical system with defined mechanical properties. It provides
environments, prompts, evaluation scripts, and the comprehensive experimental
datasets generated, aiming to foster reproducible research into LLM-based MAS
coordination and the theoretical underpinnings of Embodied MAS. Our code
repository is available at https://github.com/x66ccff/swarmbench.Summary
AI-Generated Summary