VisGym: Vielfältige, anpassbare und skalierbare Umgebungen für multimodale Agenten
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
January 23, 2026
papers.authors: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI
papers.abstract
Moderne Vision-Language-Modelle (VLMs) sind in Bezug auf mehrstufige visuelle Interaktionen nach wie vor unzureichend charakterisiert, insbesondere hinsichtlich der Integration von Wahrnehmung, Gedächtnis und Handlung über lange Zeithorizonte. Wir stellen VisGym vor, eine Testumgebung mit 17 verschiedenen Szenarien zur Evaluierung und zum Training von VLMs. Die Suite umfasst symbolische Rätsel, Verständnis realer Bilder, Navigation und Manipulation und bietet flexible Kontrolle über Schwierigkeitsgrad, Eingabedarstellung, Planungshorizont und Feedback. Zudem stellen wir mehrstufige Löser bereit, die strukturierte Demonstrationen generieren und überwachtes Finetuning ermöglichen. Unsere Auswertungen zeigen, dass alle Spitzenmodelle in interaktiven Settings Schwierigkeiten haben und sowohl in einfachen (46,6 %) als auch schwierigen (26,0 %) Konfigurationen niedrige Erfolgsquoten erzielen. Unsere Experimente offenbaren bemerkenswerte Limitationen: Modelle können lange Kontexte nicht effektiv nutzen und schneiden mit unbegrenztem Verlauf schlechter ab als mit gekürzten Fenstern. Zudem stellen wir fest, dass mehrere textbasierte symbolische Aufgaben deutlich schwieriger werden, sobald sie visuell dargestellt werden. Explizite Zielbeobachtungen, textuelles Feedback und explorative Demonstrationen in teilweise beobachtbaren oder unbekannten Dynamik-Umgebungen für überwachtes Finetuning führen jedoch zu konsistenten Verbesserungen, was konkrete Fehlermodi und Wege zur Verbesserung mehrstufiger visueller Entscheidungsfindung aufzeigt. Code, Daten und Modelle sind verfügbar unter: https://visgym.github.io/.
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.