ChatPaper.aiChatPaper

Benchmarking der Schwarmintelligenz von LLMs

Benchmarking LLMs' Swarm intelligence

May 7, 2025
Autoren: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen Potenzial für komplexes Denken, doch ihre Fähigkeit zur emergenten Koordination in Multi-Agenten-Systemen (MAS) unter strengen Einschränkungen – wie begrenzter lokaler Wahrnehmung und Kommunikation, wie sie für natürliche Schwärme charakteristisch sind – bleibt weitgehend unerforscht, insbesondere in Bezug auf die Nuancen der Schwarmintelligenz. Bestehende Benchmarks erfassen oft nicht vollständig die einzigartigen Herausforderungen der dezentralen Koordination, die entstehen, wenn Agenten mit unvollständiger räumlich-zeitlicher Information operieren. Um diese Lücke zu schließen, führen wir SwarmBench ein, einen neuartigen Benchmark, der darauf abzielt, die Schwarmintelligenz-Fähigkeiten von LLMs als dezentrale Agenten systematisch zu bewerten. SwarmBench umfasst fünf grundlegende MAS-Koordinationsaufgaben in einer konfigurierbaren 2D-Grid-Umgebung, die Agenten zwingt, sich hauptsächlich auf lokale sensorische Eingaben (k x k Sicht) und lokale Kommunikation zu verlassen. Wir schlagen Metriken für die Koordinationseffektivität vor und analysieren emergente Gruppendynamiken. Bei der Bewertung mehrerer führender LLMs in einer Zero-Shot-Einstellung finden wir signifikante Leistungsunterschiede über die Aufgaben hinweg, die die Schwierigkeiten durch lokale Informationsbeschränkungen hervorheben. Während sich einige Koordination zeigt, deuten die Ergebnisse auf Einschränkungen bei der robusten Planung und Strategiebildung unter Unsicherheit in diesen dezentralen Szenarien hin. Die Bewertung von LLMs unter schwarmähnlichen Bedingungen ist entscheidend, um ihr Potenzial in zukünftigen dezentralen Systemen zu realisieren. Wir veröffentlichen SwarmBench als ein offenes, erweiterbares Toolkit – basierend auf einem anpassbaren und skalierbaren physikalischen System mit definierten mechanischen Eigenschaften. Es bietet Umgebungen, Prompts, Bewertungsskripte und die umfassenden experimentellen Datensätze, die generiert wurden, mit dem Ziel, reproduzierbare Forschung in LLM-basierte MAS-Koordination und die theoretischen Grundlagen von Embodied MAS zu fördern. Unser Code-Repository ist verfügbar unter https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.

Summary

AI-Generated Summary

PDF130May 8, 2025