VS-Bench: Avaliando Modelos de Linguagem Visual para Raciocínio Estratégico e Tomada de Decisão em Ambientes Multiagente
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
June 3, 2025
Autores: Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
cs.AI
Resumo
Os recentes avanços em Modelos de Linguagem Visual (VLMs) expandiram suas capacidades para tarefas de agentes interativos, mas os benchmarks existentes ainda se limitam a ambientes de agente único ou apenas texto. Em contraste, cenários do mundo real frequentemente envolvem múltiplos agentes interagindo em contextos visuais e linguísticos ricos, apresentando desafios tanto com observações multimodais quanto com interações estratégicas. Para preencher essa lacuna, introduzimos o Visual Strategic Bench (VS-Bench), um benchmark multimodal que avalia VLMs para raciocínio estratégico e tomada de decisão em ambientes multiagentes. O VS-Bench compreende oito ambientes baseados em visão, abrangendo interações cooperativas, competitivas e de motivação mista, projetados para avaliar a capacidade dos agentes de prever os movimentos futuros de outros e otimizar para objetivos de longo prazo. Consideramos duas dimensões complementares de avaliação, incluindo a avaliação offline do raciocínio estratégico pela precisão da previsão da próxima ação e a avaliação online da tomada de decisão pelo retorno normalizado do episódio. Experimentos extensivos com quatorze VLMs líderes revelam uma lacuna significativa entre os modelos atuais e o desempenho ideal, com os melhores modelos atingindo 47,8% de precisão de previsão e 24,3% de retorno normalizado. Realizamos ainda análises aprofundadas sobre observações multimodais, escalonamento em tempo de teste, comportamentos sociais e casos de falha de agentes VLM. Ao padronizar a avaliação e destacar as limitações dos modelos existentes, vislumbramos o VS-Bench como uma base para pesquisas futuras sobre agentes multimodais estratégicos. O código e os dados estão disponíveis em https://vs-bench.github.io.
English
Recent advancements in Vision Language Models (VLMs) have expanded their
capabilities to interactive agent tasks, yet existing benchmarks remain limited
to single-agent or text-only environments. In contrast, real-world scenarios
often involve multiple agents interacting within rich visual and linguistic
contexts, posing challenges with both multimodal observations and strategic
interactions. To bridge this gap, we introduce Visual Strategic Bench
(VS-Bench), a multimodal benchmark that evaluates VLMs for strategic reasoning
and decision-making in multi-agent environments. VS-Bench comprises eight
vision-grounded environments spanning cooperative, competitive, and
mixed-motive interactions, designed to assess agents' ability to predict
others' future moves and optimize for long-term objectives. We consider two
complementary evaluation dimensions, including offline evaluation of strategic
reasoning by next-action prediction accuracy and online evaluation of
decision-making by normalized episode return. Extensive experiments of fourteen
leading VLMs reveal a significant gap between current models and optimal
performance, with the best models attaining 47.8% prediction accuracy and 24.3%
normalized return. We further conduct in-depth analyses on multimodal
observations, test-time scaling, social behaviors, and failure cases of VLM
agents. By standardizing the evaluation and highlighting the limitations of
existing models, we envision VS-Bench as a foundation for future research on
strategic multimodal agents. Code and data are available at
https://vs-bench.github.io.