GEM: Supervisão Generativa Auxilia a Inteligência Corporificada

Resumo

Modelos de Visão-Linguagem (VLMs) incorporados demonstraram desempenho e generalização impressionantes em robótica, particularmente em estruturas de Visão-Linguagem-Ação. No entanto, permanece uma lacuna significativa entre o foco semântico de alto nível dos paradigmas padrão de pré-treinamento guiados por texto e o conhecimento espacial e físico de baixo nível, crítico para a execução em ambientes incorporados. Neste artigo, apresentamos o GEM, um modelo de visão-linguagem incorporado com supervisão generativa, projetado para superar essa divisão. Propomos a integração de uma tarefa de geração de mapa de profundidade diretamente na fase de pré-treinamento do VLM. Ao treinar esse objetivo generativo juntamente com o modelo principal, observamos melhorias substanciais na inteligência incorporada, aprimorando significativamente tanto a compreensão semântica quanto as capacidades de operação física. Para apoiar esse paradigma, organizamos e disponibilizamos o GEM-4M, um conjunto abrangente de dados em larga escala que combina dados de fundamentação, raciocínio e planejamento, emparelhados com supervisão de profundidade de alta qualidade. Experimentos extensivos demonstram que o GEM alcança resultados de ponta em diversos benchmarks incorporados. Além disso, nosso modelo de ação implantado, GEM-VLA, exibe capacidades de execução de tarefas muito superiores tanto em ambientes de simulação quanto em avaliações no mundo real. Código, modelos e conjuntos de dados estão disponíveis em https://zhaorw02.github.io/GEM/

English

Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/