SPIN-Bench: Hoe goed kunnen LLM's strategisch plannen en sociaal redeneren?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
Auteurs: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
Samenvatting
Redeneren en strategisch gedrag in sociale interacties is een kenmerk van intelligentie. Deze vorm van redeneren is aanzienlijk geavanceerder dan geïsoleerde planning- of redeneertaken in statische omgevingen (bijvoorbeeld het oplossen van wiskundige problemen). In dit artikel presenteren we Strategic Planning, Interaction, and Negotiation (SPIN-Bench), een nieuwe multidomein-evaluatie die is ontworpen om de intelligentie van strategische planning en sociaal redeneren te meten. Terwijl veel bestaande benchmarks zich richten op beperkte planning of redenering door één agent, combineert SPIN-Bench klassieke PDDL-taken, competitieve bordspellen, coöperatieve kaartspellen en multi-agentonderhandelingsscenario's in één geïntegreerd raamwerk. Het raamwerk omvat zowel een benchmark als een arena om de verscheidenheid aan sociale situaties te simuleren en te evalueren, om het redeneer- en strategisch gedrag van AI-agents te testen. We formuleren de benchmark SPIN-Bench door systematisch actieruimtes, staatcomplexiteit en het aantal interagerende agents te variëren, om een verscheidenheid aan sociale situaties te simuleren waarin succes niet alleen afhangt van methodische en stapsgewijze besluitvorming, maar ook van conceptuele inferentie van andere (adversariële of coöperatieve) deelnemers. Onze experimenten tonen aan dat, hoewel hedendaagse LLM's basisgegevensophaling en kortetermijnplanning redelijk goed aankunnen, ze aanzienlijke prestatieknelpunten tegenkomen bij taken die diepgaand multi-hop redeneren over grote staatruimtes en sociaal vaardige coördinatie onder onzekerheid vereisen. We zien SPIN-Bench als een katalysator voor toekomstig onderzoek naar robuuste multi-agentplanning, sociaal redeneren en mens-AI-samenwerking.
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.Summary
AI-Generated Summary