VisGym : Des environnements d'apprentissage diversifiés, personnalisables et évolutifs pour agents multimodaux
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
January 23, 2026
Auteurs: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI
Résumé
Les modèles vision-langage (VLM) modernes restent mal caractérisés dans les interactions visuelles multi-étapes, particulièrement dans leur capacité à intégrer perception, mémoire et action sur de longs horizons. Nous présentons VisGym, un gymnase de 17 environnements pour évaluer et entraîner les VLM. Cette suite couvre des puzzles symboliques, la compréhension d'images réelles, la navigation et la manipulation, tout en offrant un contrôle flexible sur la difficulté, la représentation des entrées, l'horizon de planification et le retour d'information. Nous fournissons également des solveurs multi-étapes qui génèrent des démonstrations structurées, permettant un finetuning supervisé. Nos évaluations montrent que tous les modèles de pointe éprouvent des difficultés dans des contextes interactifs, avec des taux de réussite faibles dans les configurations faciles (46,6%) et difficiles (26,0%). Nos expériences révèlent des limitations notables : les modèles peinent à exploiter efficacement un contexte long, obtenant de moins bonnes performances avec un historique illimité qu'avec des fenêtres tronquées. De plus, nous constatons que plusieurs tâches symboliques basées sur le texte deviennent substantiellement plus difficiles une fois rendues visuellement. Cependant, l'observation explicite des objectifs, le retour textuel et les démonstrations exploratoires dans des environnements partiellement observables ou à dynamique inconnue pour le finetuning supervisé produisent des gains constants, mettant en lumière des modes d'échec concrets et des voies d'amélioration pour la prise de décision visuelle multi-étapes. Le code, les données et les modèles sont disponibles à l'adresse : https://visgym.github.io/.
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.