ChatPaper.aiChatPaper

VisGym: 다중 모달 에이전트를 위한 다양하고 맞춤형이며 확장 가능한 환경

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

January 23, 2026
저자: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI

초록

현대 비전-언어 모델(VLMs)은 다단계 시각적 상호작용, 특히 장기적인 관점에서 지각, 기억, 행동을 통합하는 방식에 대해 제대로 규명되지 못하고 있습니다. 본 연구에서는 VLM 평가 및 훈련을 위한 17개 환경으로 구성된 체육관인 VisGym을 소개합니다. 이 제품군은 기호 퍼즐, 실제 이미지 이해, 탐색 및 조작을 아우르며 난이도, 입력 표현, 계획 범위, 피드백에 대한 유연한 제어를 제공합니다. 또한 구조화된 데모를 생성하는 다단계 솔버를 제공하여 지도 미세 조정을 가능하게 합니다. 우리의 평가에 따르면 모든 최첨단 모델들이 상호작용 환경에서 어려움을 겪으며, 쉬운 구성(46.6%)과 어려운 구성(26.0%) 모두에서 낮은 성공률을 보였습니다. 실험을 통해 주목할 만한 한계점이 드러났습니다: 모델들은 긴 문맥을 효과적으로 활용하는 데 어려움을 겪으며, 제한된 기록 창보다 무제한 기록이 있을 때 성능이 더 나빠졌습니다. 또한 여러 텍스트 기반 기호 작업들은 시각적으로 표현되면 상당히 어려워지는 것으로 나타났습니다. 그러나 부분적으로 관찰 가능하거나 역학을 알 수 없는 환경에서의 명시적 목표 관찰, 텍스트 피드백, 탐색적 데모를 통한 지도 미세 조정은 일관된 성능 향상을 가져왔으며, 이는 다단계 시각적 의사 결정을 개선하기 위한 구체적인 실패 모드와 경로를 강조합니다. 코드, 데이터 및 모델은 https://visgym.github.io/에서 확인할 수 있습니다.
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
PDF292January 27, 2026