GEM: La Supervisión Generativa Ayuda a la Inteligencia Encarnada

Resumen

Los Modelos de Visión-Lenguaje Embodied (VLM) han demostrado un rendimiento y generalización impresionantes en robótica, particularmente dentro de los marcos Visión-Lenguaje-Acción. Sin embargo, persiste una brecha significativa entre el enfoque semántico de alto nivel de los paradigmas estándar de pre-entrenamiento guiado por texto y el conocimiento espacial y físico de bajo nivel crítico para la ejecución en entornos embodied. En este artículo, presentamos GEM, un Modelo de Visión-Lenguaje Embodied con Supervisión Generativa diseñado para cerrar esta brecha. Proponemos integrar una tarea de generación de mapas de profundidad directamente en la fase de pre-entrenamiento del VLM. Al entrenar este objetivo generativo de manera conjunta con el modelo principal, observamos mejoras sustanciales en la inteligencia embodied, mejorando significativamente tanto la comprensión semántica como las capacidades de operación física. Para respaldar este paradigma, curamos y publicamos GEM-4M, un conjunto de datos integral a gran escala que incluye una mezcla de datos de fundamentación, razonamiento y planificación junto con supervisión de profundidad de alta calidad. Experimentos exhaustivos demuestran que GEM logra resultados de última generación en diversos puntos de referencia embodied. Además, nuestro modelo de acción desplegado, GEM-VLA, exhibe habilidades de ejecución de tareas vastamente superiores tanto en entornos de simulación como en evaluaciones del mundo real. El código, los modelos y los conjuntos de datos están disponibles en https://zhaorw02.github.io/GEM/.

English

Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/