GEM: Генеративное наблюдение помогает воплощённому интеллекту

Аннотация

Воплощенные визуально-языковые модели (VLM) продемонстрировали впечатляющую производительность и способность к обобщению в робототехнике, особенно в рамках архитектур «зрение–язык–действие». Однако между высокоуровневой семантической направленностью стандартных парадигм предварительного обучения на основе текста и низкоуровневыми пространственными и физическими знаниями, критически важными для выполнения задач в воплощенных средах, сохраняется значительный разрыв. В данной статье мы представляем GEM — генеративно-контролируемую воплощенную модель зрения и языка, предназначенную для преодоления этого разрыва. Мы предлагаем интегрировать задачу генерации карт глубины непосредственно в фазу предварительного обучения VLM. Совместное обучение этой генеративной цели с основной моделью приводит к существенному улучшению воплощенного интеллекта, значительно повышая как семантическое понимание, так и способности к физическому выполнению операций. Для поддержки данной парадигмы мы подготовили и опубликовали GEM-4M — крупномасштабный набор данных, включающий смесь данных для понимания, рассуждения и планирования в паре с высококачественным контролем глубины. Обширные эксперименты демонстрируют, что GEM достигает передовых результатов на различных воплощенных эталонах. Кроме того, наша развернутая модель действий GEM-VLA проявляет значительно превосходные способности выполнения задач как в средах симуляции, так и в оценках реального мира. Код, модели и наборы данных доступны по адресу https://zhaorw02.github.io/GEM/.

English

Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/