Benchmarken van zwermintelligentie in grote taalmodellen
Benchmarking LLMs' Swarm intelligence
May 7, 2025
Auteurs: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) tonen potentieel voor complex redeneren, maar hun vermogen voor emergentie van coördinatie in Multi-Agent Systemen (MAS) onder strikte beperkingen—zoals beperkte lokale waarneming en communicatie, kenmerkend voor natuurlijke zwermen—blijft grotendeels onontgonnen, met name wat betreft de nuances van zwermintelligentie. Bestaande benchmarks vangen vaak niet volledig de unieke uitdagingen van gedecentraliseerde coördinatie die ontstaan wanneer agenten opereren met onvolledige ruimtelijk-temporele informatie. Om deze kloof te overbruggen, introduceren we SwarmBench, een nieuwe benchmark ontworpen om de zwermintelligentiecapaciteiten van LLMs die als gedecentraliseerde agenten fungeren systematisch te evalueren. SwarmBench omvat vijf fundamentele MAS-coördinatietaken binnen een configureerbare 2D-gridomgeving, waarbij agenten voornamelijk moeten vertrouwen op lokale sensorische input (k x k zicht) en lokale communicatie. We stellen metingen voor voor coördinatie-effectiviteit en analyseren emergente groepsdynamiek. Door verschillende toonaangevende LLMs in een zero-shot setting te evalueren, vinden we aanzienlijke prestatieverschillen tussen taken, wat de moeilijkheden benadrukt die worden veroorzaakt door lokale informatiebeperkingen. Hoewel enige coördinatie ontstaat, tonen resultaten beperkingen in robuuste planning en strategievorming onder onzekerheid in deze gedecentraliseerde scenario's. Het beoordelen van LLMs onder zwermachtige omstandigheden is cruciaal om hun potentieel in toekomstige gedecentraliseerde systemen te realiseren. We brengen SwarmBench uit als een open, uitbreidbaar toolkit—gebouwd op een aanpasbaar en schaalbaar fysiek systeem met gedefinieerde mechanische eigenschappen. Het biedt omgevingen, prompts, evaluatiescripts en de uitgebreide experimentele datasets die zijn gegenereerd, met als doel reproduceerbaar onderzoek te bevorderen naar LLM-gebaseerde MAS-coördinatie en de theoretische grondslagen van Embodied MAS. Onze coderepository is beschikbaar op https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their
capacity for emergent coordination in Multi-Agent Systems (MAS) when operating
under strict constraints-such as limited local perception and communication,
characteristic of natural swarms-remains largely unexplored, particularly
concerning the nuances of swarm intelligence. Existing benchmarks often do not
fully capture the unique challenges of decentralized coordination that arise
when agents operate with incomplete spatio-temporal information. To bridge this
gap, we introduce SwarmBench, a novel benchmark designed to systematically
evaluate the swarm intelligence capabilities of LLMs acting as decentralized
agents. SwarmBench features five foundational MAS coordination tasks within a
configurable 2D grid environment, forcing agents to rely primarily on local
sensory input (k x k view) and local communication. We propose metrics for
coordination effectiveness and analyze emergent group dynamics. Evaluating
several leading LLMs in a zero-shot setting, we find significant performance
variations across tasks, highlighting the difficulties posed by local
information constraints. While some coordination emerges, results indicate
limitations in robust planning and strategy formation under uncertainty in
these decentralized scenarios. Assessing LLMs under swarm-like conditions is
crucial for realizing their potential in future decentralized systems. We
release SwarmBench as an open, extensible toolkit-built upon a customizable and
scalable physical system with defined mechanical properties. It provides
environments, prompts, evaluation scripts, and the comprehensive experimental
datasets generated, aiming to foster reproducible research into LLM-based MAS
coordination and the theoretical underpinnings of Embodied MAS. Our code
repository is available at https://github.com/x66ccff/swarmbench.