VisGym: Ambienti Diversificati, Personalizzabili e Scalabili per Agenti Multimodali

Abstract

I moderni Vision-Language Models (VLM) rimangono scarsamente caratterizzati nelle interazioni visive multi-step, in particolare per quanto riguarda la loro capacità di integrare percezione, memoria e azione su orizzonti temporali lunghi. Introduciamo VisGym, una palestra di 17 ambienti per valutare e addestrare i VLM. La suite spazia da puzzle simbolici, comprensione di immagini reali, navigazione e manipolazione, e fornisce controlli flessibili su difficoltà, rappresentazione dell'input, orizzonte di pianificazione e feedback. Forniamo anche risolutori multi-step che generano dimostrazioni strutturate, abilitando il fine-tuning supervisionato. Le nostre valutazioni mostrano che tutti i modelli all'avanguardia hanno difficoltà in contesti interattivi, raggiungendo bassi tassi di successo sia nelle configurazioni facili (46,6%) che in quelle difficili (26,0%). I nostri esperimenti rivelano limitazioni notevoli: i modelli faticano a sfruttare efficacemente contesti lunghi, ottenendo performance peggiori con una cronologia illimitata rispetto a finestre troncate. Inoltre, scopriamo che diversi compiti simbolici basati su testo diventano sostanzialmente più difficili una volta resi visivamente. Tuttavia, l'osservazione esplicita degli obiettivi, il feedback testuale e le dimostrazioni esplorative in ambienti parzialmente osservabili o a dinamiche sconosciute per il fine-tuning supervisionato producono guadagni consistenti, evidenziando modalità di fallimento concrete e percorsi per migliorare il processo decisionale visivo multi-step. Codice, dati e modelli sono disponibili al seguente indirizzo: https://visgym.github.io/.

English

Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.

VisGym: Ambienti Diversificati, Personalizzabili e Scalabili per Agenti Multimodali

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Abstract

Support