ChatPaper.aiChatPaper

SPIN-Bench : Dans quelle mesure les LLM planifient-elles stratégiquement et raisonnent-elles socialement ?

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

March 16, 2025
Auteurs: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI

Résumé

Le raisonnement et le comportement stratégique dans les interactions sociales sont une marque distinctive de l'intelligence. Cette forme de raisonnement est nettement plus sophistiquée que les tâches de planification ou de raisonnement isolées dans des contextes statiques (par exemple, la résolution de problèmes mathématiques). Dans cet article, nous présentons Strategic Planning, Interaction, and Negotiation (SPIN-Bench), une nouvelle évaluation multi-domaines conçue pour mesurer l'intelligence de la planification stratégique et du raisonnement social. Alors que de nombreux benchmarks existants se concentrent sur la planification étroite ou le raisonnement mono-agent, SPIN-Bench combine des tâches PDDL classiques, des jeux de société compétitifs, des jeux de cartes coopératifs et des scénarios de négociation multi-agents dans un cadre unifié. Ce cadre inclut à la fois un benchmark et une arène pour simuler et évaluer une variété de contextes sociaux afin de tester le raisonnement et le comportement stratégique des agents d'IA. Nous formulons le benchmark SPIN-Bench en faisant varier systématiquement les espaces d'action, la complexité des états et le nombre d'agents en interaction pour simuler divers contextes sociaux où le succès dépend non seulement d'une prise de décision méthodique et progressive, mais aussi de l'inférence conceptuelle des autres participants (adversaires ou coopératifs). Nos expériences révèlent que si les modèles de langage contemporains (LLM) gèrent raisonnablement bien la récupération de faits de base et la planification à court terme, ils rencontrent des goulots d'étranglement significatifs dans les tâches nécessitant un raisonnement multi-saut profond sur de grands espaces d'états et une coordination socialement habile dans l'incertitude. Nous envisageons SPIN-Bench comme un catalyseur pour les recherches futures sur la planification multi-agent robuste, le raisonnement social et la collaboration humain-IA.
English
Reasoning and strategic behavior in social interactions is a hallmark of intelligence. This form of reasoning is significantly more sophisticated than isolated planning or reasoning tasks in static settings (e.g., math problem solving). In this paper, we present Strategic Planning, Interaction, and Negotiation (SPIN-Bench), a new multi-domain evaluation designed to measure the intelligence of strategic planning and social reasoning. While many existing benchmarks focus on narrow planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks, competitive board games, cooperative card games, and multi-agent negotiation scenarios in one unified framework. The framework includes both a benchmark as well as an arena to simulate and evaluate the variety of social settings to test reasoning and strategic behavior of AI agents. We formulate the benchmark SPIN-Bench by systematically varying action spaces, state complexity, and the number of interacting agents to simulate a variety of social settings where success depends on not only methodical and step-wise decision making, but also conceptual inference of other (adversarial or cooperative) participants. Our experiments reveal that while contemporary LLMs handle basic fact retrieval and short-range planning reasonably well, they encounter significant performance bottlenecks in tasks requiring deep multi-hop reasoning over large state spaces and socially adept coordination under uncertainty. We envision SPIN-Bench as a catalyst for future research on robust multi-agent planning, social reasoning, and human--AI teaming.

Summary

AI-Generated Summary

PDF413March 18, 2025