VisGym:マルチモーダルエージェントのための多様でカスタマイズ可能なスケーラブルな環境
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
January 23, 2026
著者: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI
要旨
現代の視覚言語モデル(VLM)は、多段階の視覚的インタラクション、特に長い時間軸にわたる知覚・記憶・行動の統合方法について十分に特性評価されていない。本研究では、VLMの評価と学習のための17種類の環境からなる「VisGym」を提案する。このスイートは記号パズル、実画像理解、ナビゲーション、操作タスクを網羅し、難易度、入力表現、計画ホライゾン、フィードバックを柔軟に制御できる。さらに、構造化されたデモンストレーションを生成する多段階ソルバーを提供し、教師ありファインチューニングを可能にする。評価結果では、最先端モデルも対話的設定で課題があり、容易な設定(46.6%)と困難な設定(26.0%)の両方で低い成功率を示した。実験から顕著な限界が明らかになった:モデルは長い文脈を効果的に活用できず、履歴を無制限にした場合では切り詰めた場合より性能が低下する。さらに、テキストベースの記号タスクの多くは視覚的に表現されると難易度が大幅に上昇する。しかし、部分観測や未知のダイナミクス環境において、明示的な目標提示、テキストフィードバック、探索的デモンストレーションを教師あり学習に活用することで一貫した改善が得られ、多段階視覚意思決定の具体的な失敗モードと改善手法を示唆している。コード、データ、モデルは以下で公開:https://visgym.github.io/
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.