ChatPaper.aiChatPaper

Valutazione dell'intelligenza collettiva nei modelli linguistici di grandi dimensioni

Benchmarking LLMs' Swarm intelligence

May 7, 2025
Autori: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun
cs.AI

Abstract

I Large Language Model (LLM) dimostrano potenziale nel ragionamento complesso, ma la loro capacità di coordinamento emergente nei Sistemi Multi-Agente (MAS) quando operano sotto vincoli rigorosi—come la percezione e la comunicazione locale limitata, caratteristica degli sciami naturali—rimane in gran parte inesplorata, in particolare per quanto riguarda le sfumature dell'intelligenza di sciame. Gli attuali benchmark spesso non catturano appieno le sfide uniche del coordinamento decentralizzato che emergono quando gli agenti operano con informazioni spazio-temporali incomplete. Per colmare questa lacuna, introduciamo SwarmBench, un nuovo benchmark progettato per valutare sistematicamente le capacità di intelligenza di sciame degli LLM che agiscono come agenti decentralizzati. SwarmBench include cinque compiti fondamentali di coordinamento MAS all'interno di un ambiente configurabile a griglia 2D, costringendo gli agenti a fare affidamento principalmente su input sensoriali locali (vista k x k) e comunicazione locale. Proponiamo metriche per l'efficacia del coordinamento e analizziamo le dinamiche di gruppo emergenti. Valutando diversi LLM leader in uno scenario zero-shot, osserviamo significative variazioni di prestazione tra i compiti, evidenziando le difficoltà poste dai vincoli di informazione locale. Sebbene emerga un certo coordinamento, i risultati indicano limitazioni nella pianificazione robusta e nella formazione di strategie in condizioni di incertezza in questi scenari decentralizzati. Valutare gli LLM in condizioni simili a quelle di uno sciame è cruciale per realizzare il loro potenziale nei futuri sistemi decentralizzati. Rilasciamo SwarmBench come toolkit aperto ed estensibile—basato su un sistema fisico personalizzabile e scalabile con proprietà meccaniche definite—che fornisce ambienti, prompt, script di valutazione e i dataset sperimentali completi generati, con l'obiettivo di promuovere ricerche riproducibili sul coordinamento MAS basato su LLM e sui fondamenti teorici dei MAS incarnati. Il nostro repository di codice è disponibile all'indirizzo https://github.com/x66ccff/swarmbench.
English
Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.
PDF200May 8, 2025