Avaliação da Inteligência de Enxame em Modelos de Linguagem de Grande Escala
Benchmarking LLMs' Swarm intelligence
May 7, 2025
Autores: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram potencial para raciocínio complexo, mas sua capacidade de coordenação emergente em Sistemas Multiagentes (MAS) ao operar sob restrições rigorosas—como percepção e comunicação locais limitadas, características de enxames naturais—ainda é amplamente inexplorada, particularmente no que diz respeito às nuances da inteligência de enxame. Os benchmarks existentes frequentemente não capturam plenamente os desafios únicos da coordenação descentralizada que surgem quando os agentes operam com informações espaço-temporais incompletas. Para preencher essa lacuna, introduzimos o SwarmBench, um novo benchmark projetado para avaliar sistematicamente as capacidades de inteligência de enxame de LLMs atuando como agentes descentralizados. O SwarmBench apresenta cinco tarefas fundamentais de coordenação MAS em um ambiente configurável de grade 2D, forçando os agentes a depender principalmente de entrada sensorial local (visão k x k) e comunicação local. Propomos métricas para a eficácia da coordenação e analisamos a dinâmica de grupo emergente. Avaliando vários LLMs líderes em um cenário zero-shot, encontramos variações significativas de desempenho entre as tarefas, destacando as dificuldades impostas pelas restrições de informação local. Embora alguma coordenação surja, os resultados indicam limitações no planejamento robusto e na formação de estratégias sob incerteza nesses cenários descentralizados. Avaliar LLMs sob condições semelhantes a enxames é crucial para realizar seu potencial em futuros sistemas descentralizados. Lançamos o SwarmBench como um kit de ferramentas aberto e extensível—construído sobre um sistema físico personalizável e escalável com propriedades mecânicas definidas. Ele fornece ambientes, prompts, scripts de avaliação e os conjuntos de dados experimentais abrangentes gerados, visando fomentar pesquisas reproduzíveis sobre coordenação MAS baseada em LLMs e os fundamentos teóricos dos MAS Embarcados. Nosso repositório de código está disponível em https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their
capacity for emergent coordination in Multi-Agent Systems (MAS) when operating
under strict constraints-such as limited local perception and communication,
characteristic of natural swarms-remains largely unexplored, particularly
concerning the nuances of swarm intelligence. Existing benchmarks often do not
fully capture the unique challenges of decentralized coordination that arise
when agents operate with incomplete spatio-temporal information. To bridge this
gap, we introduce SwarmBench, a novel benchmark designed to systematically
evaluate the swarm intelligence capabilities of LLMs acting as decentralized
agents. SwarmBench features five foundational MAS coordination tasks within a
configurable 2D grid environment, forcing agents to rely primarily on local
sensory input (k x k view) and local communication. We propose metrics for
coordination effectiveness and analyze emergent group dynamics. Evaluating
several leading LLMs in a zero-shot setting, we find significant performance
variations across tasks, highlighting the difficulties posed by local
information constraints. While some coordination emerges, results indicate
limitations in robust planning and strategy formation under uncertainty in
these decentralized scenarios. Assessing LLMs under swarm-like conditions is
crucial for realizing their potential in future decentralized systems. We
release SwarmBench as an open, extensible toolkit-built upon a customizable and
scalable physical system with defined mechanical properties. It provides
environments, prompts, evaluation scripts, and the comprehensive experimental
datasets generated, aiming to foster reproducible research into LLM-based MAS
coordination and the theoretical underpinnings of Embodied MAS. Our code
repository is available at https://github.com/x66ccff/swarmbench.