SPIN-Bench: 대형 언어 모델은 전략적 계획과 사회적 추론을 얼마나 잘 수행하는가?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
저자: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
초록
사회적 상호작용에서의 추론과 전략적 행동은 지능의 핵심적 특징 중 하나입니다. 이러한 형태의 추론은 정적인 환경에서의 고립된 계획 수립이나 문제 해결(예: 수학 문제 풀이)보다 훨씬 더 정교합니다. 본 논문에서는 전략적 계획과 사회적 추론 능력을 측정하기 위해 설계된 새로운 다중 도메인 평가 프레임워크인 SPIN-Bench(Strategic Planning, Interaction, and Negotiation Benchmark)를 소개합니다. 기존의 많은 벤치마크가 좁은 범위의 계획 수립이나 단일 에이전트 추론에 초점을 맞추는 반면, SPIN-Bench는 고전적인 PDDL 작업, 경쟁형 보드 게임, 협력형 카드 게임, 그리고 다중 에이전트 협상 시나리오를 하나의 통합된 프레임워크로 결합합니다. 이 프레임워크는 벤치마크뿐만 아니라 다양한 사회적 환경을 시뮬레이션하고 평가할 수 있는 아레나를 포함하며, 이를 통해 AI 에이전트의 추론 및 전략적 행동을 테스트합니다. SPIN-Bench 벤치마크는 행동 공간, 상태 복잡성, 상호작용하는 에이전트의 수를 체계적으로 변화시켜 다양한 사회적 환경을 시뮬레이션하도록 설계되었으며, 여기서 성공은 체계적이고 단계적인 의사결정뿐만 아니라 (적대적이거나 협력적인) 다른 참가자에 대한 개념적 추론에도 달려 있습니다. 실험 결과, 현대의 대형 언어 모델(LLM)은 기본적인 사실 검색과 단기 계획 수립은 비교적 잘 수행하지만, 큰 상태 공간에서의 깊은 다중 홉 추론이나 불확실성 하에서의 사회적으로 능숙한 조정이 필요한 작업에서는 상당한 성능 병목 현상을 겪는 것으로 나타났습니다. SPIN-Bench는 향후 강력한 다중 에이전트 계획, 사회적 추론, 그리고 인간-AI 팀워크 연구를 위한 촉매제가 될 것으로 기대합니다.
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.Summary
AI-Generated Summary