ChatPaper.aiChatPaper

Evaluación comparativa de la inteligencia de enjambre en modelos de lenguaje grandes

Benchmarking LLMs' Swarm intelligence

May 7, 2025
Autores: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para el razonamiento complejo, pero su capacidad para la coordinación emergente en Sistemas Multiagente (MAS, por sus siglas en inglés) cuando operan bajo restricciones estrictas—como la percepción y comunicación local limitada, características de los enjambres naturales—sigue siendo en gran medida inexplorada, particularmente en lo que respecta a los matices de la inteligencia de enjambre. Los puntos de referencia existentes a menudo no capturan completamente los desafíos únicos de la coordinación descentralizada que surgen cuando los agentes operan con información espacio-temporal incompleta. Para cerrar esta brecha, presentamos SwarmBench, un nuevo punto de referencia diseñado para evaluar sistemáticamente las capacidades de inteligencia de enjambre de los LLMs que actúan como agentes descentralizados. SwarmBench incluye cinco tareas fundamentales de coordinación MAS dentro de un entorno configurable de cuadrícula 2D, obligando a los agentes a depender principalmente de la entrada sensorial local (vista de k x k) y la comunicación local. Proponemos métricas para la efectividad de la coordinación y analizamos las dinámicas grupales emergentes. Al evaluar varios LLMs líderes en un entorno de cero disparos, encontramos variaciones significativas en el rendimiento entre las tareas, destacando las dificultades planteadas por las restricciones de información local. Aunque surge cierta coordinación, los resultados indican limitaciones en la planificación robusta y la formación de estrategias bajo incertidumbre en estos escenarios descentralizados. Evaluar los LLMs bajo condiciones similares a las de un enjambre es crucial para realizar su potencial en futuros sistemas descentralizados. Publicamos SwarmBench como un kit de herramientas abierto y extensible—construido sobre un sistema físico personalizable y escalable con propiedades mecánicas definidas. Proporciona entornos, indicaciones, scripts de evaluación y los conjuntos de datos experimentales completos generados, con el objetivo de fomentar la investigación reproducible en la coordinación MAS basada en LLMs y los fundamentos teóricos de los MAS Encarnados. Nuestro repositorio de código está disponible en https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.

Summary

AI-Generated Summary

PDF130May 8, 2025