Évaluation de l'intelligence en essaim des modèles de langage de grande taille

Résumé

Les modèles de langage de grande taille (LLMs) montrent un potentiel pour le raisonnement complexe, mais leur capacité à coordonner de manière émergente dans les systèmes multi-agents (MAS) lorsqu'ils opèrent sous des contraintes strictes - telles qu'une perception et une communication locales limitées, caractéristiques des essaims naturels - reste largement inexplorée, en particulier en ce qui concerne les nuances de l'intelligence en essaim. Les benchmarks existants ne capturent souvent pas pleinement les défis uniques de la coordination décentralisée qui surviennent lorsque les agents opèrent avec des informations spatio-temporelles incomplètes. Pour combler cette lacune, nous introduisons SwarmBench, un nouveau benchmark conçu pour évaluer systématiquement les capacités d'intelligence en essaim des LLMs agissant comme agents décentralisés. SwarmBench propose cinq tâches fondamentales de coordination MAS dans un environnement configurable en grille 2D, forçant les agents à s'appuyer principalement sur des entrées sensorielles locales (vue k x k) et une communication locale. Nous proposons des métriques pour l'efficacité de la coordination et analysons les dynamiques de groupe émergentes. En évaluant plusieurs LLMs de pointe dans un cadre zero-shot, nous observons des variations significatives de performance selon les tâches, mettant en évidence les difficultés posées par les contraintes d'information locale. Bien qu'une certaine coordination émerge, les résultats indiquent des limites dans la planification robuste et la formation de stratégies sous incertitude dans ces scénarios décentralisés. Évaluer les LLMs dans des conditions semblables à celles d'un essaim est crucial pour réaliser leur potentiel dans les futurs systèmes décentralisés. Nous publions SwarmBench comme un toolkit ouvert et extensible - construit sur un système physique personnalisable et évolutif avec des propriétés mécaniques définies. Il fournit des environnements, des prompts, des scripts d'évaluation et les ensembles de données expérimentales complets générés, visant à favoriser une recherche reproductible sur la coordination MAS basée sur les LLMs et les fondements théoriques des MAS incarnés. Notre dépôt de code est disponible à l'adresse https://github.com/x66ccff/swarmbench.

English

Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.

Évaluation de l'intelligence en essaim des modèles de langage de grande taille

Benchmarking LLMs' Swarm intelligence

Résumé

Support