ChatPaper.aiChatPaper

VisGym: Разнообразные, Настраиваемые и Масштабируемые Среда для Мультимодальных Агентов

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

January 23, 2026
Авторы: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez
cs.AI

Аннотация

Современные модели компьютерного зрения и естественного языка (Vision-Language Models, VLM) остаются слабо изученными в контексте многошаговых визуальных взаимодействий, особенно в том, как они интегрируют восприятие, память и действие на длительных горизонтах. Мы представляем VisGym — набор из 17 сред для оценки и обучения VLM. Набор охватывает символические головоломки, анализ реальных изображений, навигацию и манипуляции, а также предоставляет гибкий контроль над сложностью, представлением входных данных, горизонтом планирования и обратной связью. Мы также предоставляем многошаговые решатели, которые генерируют структурированные демонстрации, позволяя проводить контролируемое дообучение. Наши оценки показывают, что все передовые модели испытывают трудности в интерактивных сценариях, демонстрируя низкие показатели успеха как в простых (46,6%), так и в сложных (26,0%) конфигурациях. Наши эксперименты выявляют значительные ограничения: модели с трудом эффективно используют длинный контекст, показывая худшие результаты с неограниченной историей по сравнению с усеченными окнами. Кроме того, мы обнаружили, что несколько символьных текстовых задач становятся существенно сложнее после визуализации. Однако явные наблюдения целей, текстовая обратная связь и исследовательские демонстрации в условиях частичной наблюдаемости или неизвестной динамики для контролируемого дообучения приводят к стабильному улучшению, выявляя конкретные режимы сбоев и пути для совершенствования многошагового визуального принятия решений. Код, данные и модели доступны по адресу: https://visgym.github.io/.
English
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
PDF292January 27, 2026