SPIN-Bench: Quão Bem os LLMs Planejam Estrategicamente e Raciocinam Socialmente?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
Autores: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
Resumo
O raciocínio e o comportamento estratégico em interações sociais são marcas distintivas da inteligência. Essa forma de raciocínio é significativamente mais sofisticada do que tarefas isoladas de planejamento ou raciocínio em ambientes estáticos (por exemplo, resolução de problemas matemáticos). Neste artigo, apresentamos o SPIN-Bench (Strategic Planning, Interaction, and Negotiation), uma nova avaliação multidisciplinar projetada para medir a inteligência do planejamento estratégico e do raciocínio social. Enquanto muitos benchmarks existentes se concentram em planejamento restrito ou raciocínio de agente único, o SPIN-Bench combina tarefas clássicas de PDDL, jogos de tabuleiro competitivos, jogos de cartas cooperativos e cenários de negociação multiagente em um único framework unificado. O framework inclui tanto um benchmark quanto uma arena para simular e avaliar uma variedade de cenários sociais, testando o raciocínio e o comportamento estratégico de agentes de IA. Formulamos o benchmark SPIN-Bench variando sistematicamente espaços de ação, complexidade de estados e o número de agentes interagentes para simular uma variedade de cenários sociais onde o sucesso depende não apenas de tomadas de decisão metódicas e passo a passo, mas também da inferência conceitual de outros participantes (adversários ou cooperativos). Nossos experimentos revelam que, embora os LLMs contemporâneos lidem razoavelmente bem com a recuperação de fatos básicos e o planejamento de curto prazo, eles encontram gargalos significativos de desempenho em tarefas que exigem raciocínio profundo de múltiplos saltos em grandes espaços de estados e coordenação socialmente hábil sob incerteza. Enxergamos o SPIN-Bench como um catalisador para pesquisas futuras sobre planejamento robusto multiagente, raciocínio social e colaboração humano-IA.
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.Summary
AI-Generated Summary