SPIN-Bench: Насколько хорошо языковые модели справляются с стратегическим планированием и социальным рассуждением?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
Авторы: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
Аннотация
Рассуждения и стратегическое поведение в социальных взаимодействиях являются ключевыми признаками интеллекта. Этот тип рассуждений значительно сложнее, чем изолированные задачи планирования или рассуждений в статических условиях (например, решение математических задач). В данной статье мы представляем SPIN-Bench (Strategic Planning, Interaction, and Negotiation) — новую многодоменную оценку, предназначенную для измерения интеллекта стратегического планирования и социального мышления. В то время как многие существующие бенчмарки сосредоточены на узком планировании или рассуждениях для одного агента, SPIN-Bench объединяет классические задачи PDDL, конкурентные настольные игры, кооперативные карточные игры и сценарии многоагентных переговоров в единую структуру. Эта структура включает как бенчмарк, так и арену для симуляции и оценки разнообразных социальных ситуаций, чтобы проверить рассуждения и стратегическое поведение ИИ-агентов. Мы формулируем бенчмарк SPIN-Bench, систематически варьируя пространства действий, сложность состояний и количество взаимодействующих агентов, чтобы смоделировать различные социальные ситуации, где успех зависит не только от методичного и пошагового принятия решений, но и от концептуального вывода о других участниках (оппонентах или партнерах). Наши эксперименты показывают, что, хотя современные языковые модели (LLM) справляются с базовым извлечением фактов и краткосрочным планированием достаточно хорошо, они сталкиваются с существенными ограничениями в задачах, требующих глубокого многошагового рассуждения в больших пространствах состояний и социально адаптивной координации в условиях неопределенности. Мы рассматриваем SPIN-Bench как катализатор для будущих исследований в области устойчивого многоагентного планирования, социального мышления и взаимодействия человека и ИИ.
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.Summary
AI-Generated Summary