VisGym: Entornos Diversos, Personalizables y Escalables para Agentes Multimodales
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
January 23, 2026
Autores: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI
Resumen
Los Modelos de Visión y Lenguaje (VLMs) modernos siguen estando poco caracterizados en interacciones visuales de múltiples pasos, particularmente en cómo integran percepción, memoria y acción a lo largo de horizontes temporales largos. Presentamos VisGym, un gimnasio de 17 entornos para evaluar y entrenar VLMs. La suite abarca desde rompecabezas simbólicos hasta comprensión de imágenes reales, navegación y manipulación, y ofrece controles flexibles sobre la dificultad, la representación de la entrada, el horizonte de planificación y la retroalimentación. También proporcionamos solucionadores de múltiples pasos que generan demostraciones estructuradas, permitiendo el ajuste fino supervisado. Nuestras evaluaciones muestran que todos los modelos de vanguardia tienen dificultades en entornos interactivos, logrando bajas tasas de éxito tanto en configuraciones fáciles (46.6%) como difíciles (26.0%). Nuestros experimentos revelan limitaciones notables: los modelos luchan por aprovechar eficazmente contextos largos, obteniendo peores resultados con un historial ilimitado que con ventanas truncadas. Además, encontramos que varias tareas simbólicas basadas en texto se vuelven sustancialmente más difíciles una vez se representan visualmente. Sin embargo, las observaciones explícitas de objetivos, la retroalimentación textual y las demostraciones exploratorias en entornos de observación parcial o dinámicas desconocidas para el ajuste fino supervisado producen ganancias consistentes, destacando modos de fallo concretos y vías para mejorar la toma de decisiones visuales multi-paso. El código, los datos y los modelos pueden encontrarse en: https://visgym.github.io/.
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.