SPIN-Bench: 大規模言語モデルは戦略的計画と社会的推論をどれだけうまく行えるか?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
著者: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
要旨
社会的相互作用における推論と戦略的行動は、知性の特徴である。この形式の推論は、静的な設定における孤立した計画立案や推論タスク(例えば数学の問題解決)よりもはるかに高度である。本論文では、戦略的計画立案と社会的推論の知性を測定するために設計された新しいマルチドメイン評価であるStrategic Planning, Interaction, and Negotiation (SPIN-Bench)を紹介する。既存の多くのベンチマークが狭い範囲の計画立案や単一エージェントの推論に焦点を当てているのに対し、SPIN-Benchは古典的なPDDLタスク、競争型ボードゲーム、協力型カードゲーム、マルチエージェント交渉シナリオを一つの統一されたフレームワークに統合している。このフレームワークには、AIエージェントの推論と戦略的行動をテストするための多様な社会的設定をシミュレートし評価するためのベンチマークとアリーナが含まれている。我々は、行動空間、状態の複雑さ、相互作用するエージェントの数を体系的に変化させることで、成功が体系的な段階的決定だけでなく、他の(敵対的または協力的な)参加者の概念的推論にも依存する多様な社会的設定をシミュレートするSPIN-Benchを定式化した。我々の実験では、現代の大規模言語モデル(LLM)が基本的な事実検索や短期的な計画立案を比較的うまく処理する一方で、大規模な状態空間にわたる深いマルチホップ推論や不確実性下での社会的に適切な調整を必要とするタスクにおいて、重大なパフォーマンスのボトルネックに直面することが明らかになった。我々は、SPIN-Benchが堅牢なマルチエージェント計画立案、社会的推論、人間-AIチーム形成に関する将来の研究の触媒となることを期待している。
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.Summary
AI-Generated Summary