ChatPaper.aiChatPaper

VisGym: Ambientes Diversos, Personalizáveis e Escaláveis para Agentes Multimodais

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

January 23, 2026
Autores: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI

Resumo

Os Modelos Visuais de Linguagem (VLMs) modernos continuam mal caracterizados em interações visuais multi-etapa, particularmente na forma como integram percepção, memória e ação em horizontes longos. Apresentamos o VisGym, um ginásio de 17 ambientes para avaliar e treinar VLMs. O conjunto abrange quebra-cabeças simbólicos, compreensão de imagens reais, navegação e manipulação, e oferece controlos flexíveis sobre dificuldade, representação de entrada, horizonte de planeamento e *feedback*. Também fornecemos solucionadores multi-etapa que geram demonstrações estruturadas, permitindo o afinamento supervisionado. As nossas avaliações mostram que todos os modelos de vanguarda têm dificuldades em ambientes interativos, atingindo baixas taxas de sucesso tanto nas configurações fáceis (46,6%) como nas difíceis (26,0%). As nossas experiências revelam limitações notáveis: os modelos lutam para alavancar eficazmente contextos longos, desempenhando pior com um histórico ilimitado do que com janelas truncadas. Além disso, descobrimos que várias tarefas simbólicas baseadas em texto tornam-se substancialmente mais difíceis quando renderizadas visualmente. No entanto, observações explícitas de objetivos, *feedback* textual e demonstrações exploratórias em ambientes de dinâmica desconhecida ou parcialmente observáveis para afinamento supervisionado produzem ganhos consistentes, destacando modos de falha concretos e vias para melhorar a tomada de decisão visual multi-etapa. O código, dados e modelos podem ser encontrados em: https://visgym.github.io/.
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
PDF403February 8, 2026