SPIN-Bench: Quanto Sono Efficaci i LLM nel Pianificare Strategicamente e Ragionare Socialmente?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
Autori: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
Abstract
Il ragionamento e il comportamento strategico nelle interazioni sociali rappresentano un tratto distintivo dell'intelligenza. Questa forma di ragionamento è significativamente più sofisticata rispetto a compiti di pianificazione o ragionamento isolati in contesti statici (ad esempio, la risoluzione di problemi matematici). In questo articolo, presentiamo Strategic Planning, Interaction, and Negotiation (SPIN-Bench), una nuova valutazione multi-dominio progettata per misurare l'intelligenza della pianificazione strategica e del ragionamento sociale. Mentre molti benchmark esistenti si concentrano su una pianificazione ristretta o su ragionamenti a singolo agente, SPIN-Bench combina compiti classici PDDL, giochi da tavolo competitivi, giochi di carte cooperativi e scenari di negoziazione multi-agente in un unico framework unificato. Il framework include sia un benchmark che un'arena per simulare e valutare una varietà di contesti sociali per testare il ragionamento e il comportamento strategico degli agenti AI. Formuliamo il benchmark SPIN-Bench variando sistematicamente gli spazi di azione, la complessità degli stati e il numero di agenti interagenti per simulare una gamma di contesti sociali in cui il successo dipende non solo da una decisione metodica e graduale, ma anche dall'inferenza concettuale degli altri partecipanti (avversari o cooperativi). I nostri esperimenti rivelano che, sebbene i moderni LLM gestiscano ragionevolmente bene il recupero di informazioni di base e la pianificazione a breve termine, incontrano significativi colli di bottiglia nelle prestazioni in compiti che richiedono un ragionamento multi-hop profondo su ampi spazi di stati e una coordinazione socialmente abile in condizioni di incertezza. Prevediamo che SPIN-Bench possa fungere da catalizzatore per future ricerche sulla pianificazione multi-agente robusta, sul ragionamento sociale e sul teaming uomo-AI.
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.