LLMの群知能のベンチマーキング
Benchmarking LLMs' Swarm intelligence
May 7, 2025
著者: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI
要旨
大規模言語モデル(LLM)は複雑な推論能力を示すが、自然な群れに特徴的な局所的な知覚と通信の制約といった厳しい条件下でのマルチエージェントシステム(MAS)における創発的協調能力は、特に群知能のニュアンスに関して、ほとんど未解明のままである。既存のベンチマークは、エージェントが不完全な時空間情報で動作する際に生じる分散型協調の独自の課題を十分に捉えていないことが多い。このギャップを埋めるため、我々はSwarmBenchを導入する。これは、分散型エージェントとして動作するLLMの群知能能力を体系的に評価するための新しいベンチマークである。SwarmBenchは、設定可能な2Dグリッド環境内で5つの基本的なMAS協調タスクを特徴とし、エージェントに主に局所的な感覚入力(k x kビュー)と局所的な通信に依存することを強いる。我々は協調効果のための指標を提案し、創発的なグループダイナミクスを分析する。ゼロショット設定でいくつかの主要なLLMを評価した結果、タスク間で顕著な性能のばらつきが見られ、局所的な情報制約がもたらす困難が浮き彫りになった。一部の協調は見られるものの、結果はこれらの分散型シナリオにおける不確実性下での堅牢な計画と戦略形成の限界を示している。群れのような条件下でLLMを評価することは、将来の分散型システムにおけるその潜在能力を実現するために重要である。我々はSwarmBenchを、定義された機械的特性を持つカスタマイズ可能でスケーラブルな物理システムに基づいたオープンで拡張可能なツールキットとして公開する。これにより、環境、プロンプト、評価スクリプト、および生成された包括的な実験データセットを提供し、LLMベースのMAS協調と具現化されたMASの理論的基盤に関する再現可能な研究を促進することを目指している。我々のコードリポジトリはhttps://github.com/x66ccff/swarmbenchで利用可能である。
English
Large Language Models (LLMs) show potential for complex reasoning, yet their
capacity for emergent coordination in Multi-Agent Systems (MAS) when operating
under strict constraints-such as limited local perception and communication,
characteristic of natural swarms-remains largely unexplored, particularly
concerning the nuances of swarm intelligence. Existing benchmarks often do not
fully capture the unique challenges of decentralized coordination that arise
when agents operate with incomplete spatio-temporal information. To bridge this
gap, we introduce SwarmBench, a novel benchmark designed to systematically
evaluate the swarm intelligence capabilities of LLMs acting as decentralized
agents. SwarmBench features five foundational MAS coordination tasks within a
configurable 2D grid environment, forcing agents to rely primarily on local
sensory input (k x k view) and local communication. We propose metrics for
coordination effectiveness and analyze emergent group dynamics. Evaluating
several leading LLMs in a zero-shot setting, we find significant performance
variations across tasks, highlighting the difficulties posed by local
information constraints. While some coordination emerges, results indicate
limitations in robust planning and strategy formation under uncertainty in
these decentralized scenarios. Assessing LLMs under swarm-like conditions is
crucial for realizing their potential in future decentralized systems. We
release SwarmBench as an open, extensible toolkit-built upon a customizable and
scalable physical system with defined mechanical properties. It provides
environments, prompts, evaluation scripts, and the comprehensive experimental
datasets generated, aiming to foster reproducible research into LLM-based MAS
coordination and the theoretical underpinnings of Embodied MAS. Our code
repository is available at https://github.com/x66ccff/swarmbench.Summary
AI-Generated Summary