VisGym: Ambientes Diversos, Personalizáveis e Escaláveis para Agentes Multimodais

Resumo

Os Modelos Visuais de Linguagem (VLMs) modernos continuam mal caracterizados em interações visuais multi-etapa, particularmente na forma como integram percepção, memória e ação em horizontes longos. Apresentamos o VisGym, um ginásio de 17 ambientes para avaliar e treinar VLMs. O conjunto abrange quebra-cabeças simbólicos, compreensão de imagens reais, navegação e manipulação, e oferece controlos flexíveis sobre dificuldade, representação de entrada, horizonte de planeamento e *feedback*. Também fornecemos solucionadores multi-etapa que geram demonstrações estruturadas, permitindo o afinamento supervisionado. As nossas avaliações mostram que todos os modelos de vanguarda têm dificuldades em ambientes interativos, atingindo baixas taxas de sucesso tanto nas configurações fáceis (46,6%) como nas difíceis (26,0%). As nossas experiências revelam limitações notáveis: os modelos lutam para alavancar eficazmente contextos longos, desempenhando pior com um histórico ilimitado do que com janelas truncadas. Além disso, descobrimos que várias tarefas simbólicas baseadas em texto tornam-se substancialmente mais difíceis quando renderizadas visualmente. No entanto, observações explícitas de objetivos, *feedback* textual e demonstrações exploratórias em ambientes de dinâmica desconhecida ou parcialmente observáveis para afinamento supervisionado produzem ganhos consistentes, destacando modos de falha concretos e vias para melhorar a tomada de decisão visual multi-etapa. O código, dados e modelos podem ser encontrados em: https://visgym.github.io/.

English

Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.

VisGym: Ambientes Diversos, Personalizáveis e Escaláveis para Agentes Multimodais

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Resumo

Support