ChatPaper.aiChatPaper

VS-Bench : Évaluation des VLMs pour le raisonnement stratégique et la prise de décision dans des environnements multi-agents

VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

June 3, 2025
Auteurs: Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
cs.AI

Résumé

Les avancées récentes dans les modèles de langage visuel (Vision Language Models, VLMs) ont étendu leurs capacités aux tâches d'agents interactifs, mais les benchmarks existants restent limités à des environnements mono-agents ou textuels uniquement. En revanche, les scénarios réels impliquent souvent plusieurs agents interagissant dans des contextes visuels et linguistiques riches, posant des défis à la fois en termes d'observations multimodales et d'interactions stratégiques. Pour combler cette lacune, nous introduisons Visual Strategic Bench (VS-Bench), un benchmark multimodal qui évalue les VLMs pour le raisonnement stratégique et la prise de décision dans des environnements multi-agents. VS-Bench comprend huit environnements ancrés dans la vision, couvrant des interactions coopératives, compétitives et à motivations mixtes, conçus pour évaluer la capacité des agents à prédire les actions futures des autres et à optimiser pour des objectifs à long terme. Nous considérons deux dimensions d'évaluation complémentaires, incluant l'évaluation hors ligne du raisonnement stratégique par la précision de prédiction des actions suivantes et l'évaluation en ligne de la prise de décision par le rendement normalisé des épisodes. Des expériences approfondies sur quatorze VLMs de pointe révèlent un écart significatif entre les modèles actuels et les performances optimales, les meilleurs modèles atteignant 47,8 % de précision de prédiction et 24,3 % de rendement normalisé. Nous menons également des analyses approfondies sur les observations multimodales, la mise à l'échelle au moment du test, les comportements sociaux et les cas d'échec des agents VLM. En standardisant l'évaluation et en mettant en lumière les limites des modèles existants, nous envisageons VS-Bench comme une base pour les recherches futures sur les agents multimodaux stratégiques. Le code et les données sont disponibles à l'adresse https://vs-bench.github.io.
English
Recent advancements in Vision Language Models (VLMs) have expanded their capabilities to interactive agent tasks, yet existing benchmarks remain limited to single-agent or text-only environments. In contrast, real-world scenarios often involve multiple agents interacting within rich visual and linguistic contexts, posing challenges with both multimodal observations and strategic interactions. To bridge this gap, we introduce Visual Strategic Bench (VS-Bench), a multimodal benchmark that evaluates VLMs for strategic reasoning and decision-making in multi-agent environments. VS-Bench comprises eight vision-grounded environments spanning cooperative, competitive, and mixed-motive interactions, designed to assess agents' ability to predict others' future moves and optimize for long-term objectives. We consider two complementary evaluation dimensions, including offline evaluation of strategic reasoning by next-action prediction accuracy and online evaluation of decision-making by normalized episode return. Extensive experiments of fourteen leading VLMs reveal a significant gap between current models and optimal performance, with the best models attaining 47.8% prediction accuracy and 24.3% normalized return. We further conduct in-depth analyses on multimodal observations, test-time scaling, social behaviors, and failure cases of VLM agents. By standardizing the evaluation and highlighting the limitations of existing models, we envision VS-Bench as a foundation for future research on strategic multimodal agents. Code and data are available at https://vs-bench.github.io.
PDF553June 4, 2025