VS-Bench: 다중 에이전트 환경에서 전략적 추론 및 의사결정을 위한 시각적 언어 모델 평가
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments
June 3, 2025
저자: Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
cs.AI
초록
최근 비전 언어 모델(Vision Language Models, VLMs)의 발전으로 인해 이러한 모델들이 상호작용 에이전트 작업에 적용될 수 있는 능력이 확장되었으나, 기존 벤치마크는 단일 에이전트 또는 텍스트 전용 환경에 국한되어 있다. 반면, 실제 세계 시나리오에서는 다중 에이전트가 풍부한 시각적 및 언어적 맥락 내에서 상호작용하며, 이는 다중모달 관찰과 전략적 상호작용 모두에서 도전 과제를 제기한다. 이러한 격차를 해소하기 위해, 우리는 다중 에이전트 환경에서 전략적 추론과 의사결정을 평가하는 다중모달 벤치마크인 Visual Strategic Bench(VS-Bench)를 소개한다. VS-Bench는 협력적, 경쟁적, 혼합 동기 상호작용을 아우르는 8개의 시각 기반 환경으로 구성되어 있으며, 에이전트가 다른 에이전트의 미래 행동을 예측하고 장기적 목표를 최적화하는 능력을 평가하도록 설계되었다. 우리는 다음 행동 예측 정확도를 통한 전략적 추론의 오프라인 평가와 정규화된 에피소드 수익을 통한 의사결정의 온라인 평가를 포함한 두 가지 상호 보완적인 평가 차원을 고려한다. 14개의 주요 VLM에 대한 광범위한 실험 결과, 현재 모델과 최적 성능 간에 상당한 격차가 있음을 확인하였으며, 최고 모델은 47.8%의 예측 정확도와 24.3%의 정규화된 수익을 달성하였다. 또한, 우리는 다중모달 관찰, 테스트 시 스케일링, 사회적 행동, 그리고 VLM 에이전트의 실패 사례에 대한 심층 분석을 수행하였다. 평가를 표준화하고 기존 모델의 한계를 강조함으로써, 우리는 VS-Bench가 전략적 다중모달 에이전트에 대한 미래 연구의 기반이 될 것으로 기대한다. 코드와 데이터는 https://vs-bench.github.io에서 확인할 수 있다.
English
Recent advancements in Vision Language Models (VLMs) have expanded their
capabilities to interactive agent tasks, yet existing benchmarks remain limited
to single-agent or text-only environments. In contrast, real-world scenarios
often involve multiple agents interacting within rich visual and linguistic
contexts, posing challenges with both multimodal observations and strategic
interactions. To bridge this gap, we introduce Visual Strategic Bench
(VS-Bench), a multimodal benchmark that evaluates VLMs for strategic reasoning
and decision-making in multi-agent environments. VS-Bench comprises eight
vision-grounded environments spanning cooperative, competitive, and
mixed-motive interactions, designed to assess agents' ability to predict
others' future moves and optimize for long-term objectives. We consider two
complementary evaluation dimensions, including offline evaluation of strategic
reasoning by next-action prediction accuracy and online evaluation of
decision-making by normalized episode return. Extensive experiments of fourteen
leading VLMs reveal a significant gap between current models and optimal
performance, with the best models attaining 47.8% prediction accuracy and 24.3%
normalized return. We further conduct in-depth analyses on multimodal
observations, test-time scaling, social behaviors, and failure cases of VLM
agents. By standardizing the evaluation and highlighting the limitations of
existing models, we envision VS-Bench as a foundation for future research on
strategic multimodal agents. Code and data are available at
https://vs-bench.github.io.