VS-Bench: Evaluación de VLMs para el razonamiento estratégico y la toma de decisiones en entornos multiagente
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
June 3, 2025
Autores: Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
cs.AI
Resumen
Los avances recientes en los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) han ampliado sus capacidades hacia tareas de agentes interactivos, aunque los puntos de referencia existentes siguen limitados a entornos de un solo agente o basados únicamente en texto. En contraste, los escenarios del mundo real a menudo involucran múltiples agentes que interactúan en contextos visuales y lingüísticos ricos, lo que plantea desafíos tanto en observaciones multimodales como en interacciones estratégicas. Para cerrar esta brecha, presentamos Visual Strategic Bench (VS-Bench), un punto de referencia multimodal que evalúa los VLMs en razonamiento estratégico y toma de decisiones en entornos multiagente. VS-Bench comprende ocho entornos basados en visión que abarcan interacciones cooperativas, competitivas y de motivos mixtos, diseñados para evaluar la capacidad de los agentes para predecir los movimientos futuros de otros y optimizar objetivos a largo plazo. Consideramos dos dimensiones de evaluación complementarias, incluyendo la evaluación fuera de línea del razonamiento estratégico mediante la precisión en la predicción de la siguiente acción y la evaluación en línea de la toma de decisiones mediante el retorno normalizado por episodio. Experimentos extensos con catorce VLMs líderes revelan una brecha significativa entre los modelos actuales y el rendimiento óptimo, con los mejores modelos alcanzando un 47.8% de precisión en la predicción y un 24.3% de retorno normalizado. Además, realizamos análisis en profundidad sobre observaciones multimodales, escalamiento en tiempo de prueba, comportamientos sociales y casos de fallo de los agentes VLM. Al estandarizar la evaluación y resaltar las limitaciones de los modelos existentes, visualizamos VS-Bench como una base para futuras investigaciones sobre agentes multimodales estratégicos. El código y los datos están disponibles en https://vs-bench.github.io.
English
Recent advancements in Vision Language Models (VLMs) have expanded their
capabilities to interactive agent tasks, yet existing benchmarks remain limited
to single-agent or text-only environments. In contrast, real-world scenarios
often involve multiple agents interacting within rich visual and linguistic
contexts, posing challenges with both multimodal observations and strategic
interactions. To bridge this gap, we introduce Visual Strategic Bench
(VS-Bench), a multimodal benchmark that evaluates VLMs for strategic reasoning
and decision-making in multi-agent environments. VS-Bench comprises eight
vision-grounded environments spanning cooperative, competitive, and
mixed-motive interactions, designed to assess agents' ability to predict
others' future moves and optimize for long-term objectives. We consider two
complementary evaluation dimensions, including offline evaluation of strategic
reasoning by next-action prediction accuracy and online evaluation of
decision-making by normalized episode return. Extensive experiments of fourteen
leading VLMs reveal a significant gap between current models and optimal
performance, with the best models attaining 47.8% prediction accuracy and 24.3%
normalized return. We further conduct in-depth analyses on multimodal
observations, test-time scaling, social behaviors, and failure cases of VLM
agents. By standardizing the evaluation and highlighting the limitations of
existing models, we envision VS-Bench as a foundation for future research on
strategic multimodal agents. Code and data are available at
https://vs-bench.github.io.