GEM : La Supervision Générative Aide l'Intelligence Incarnée

Résumé

Les modèles Vision-Langage Incarnés (VLM) ont démontré des performances et une généralisation impressionnantes en robotique, en particulier dans les cadres Vision-Langage-Action. Cependant, un écart significatif subsiste entre l'accent sémantique de haut niveau des paradigmes standards de pré-entraînement guidés par le texte et les connaissances spatiales et physiques de bas niveau essentielles à l'exécution dans des environnements incarnés. Dans cet article, nous présentons GEM, un modèle Vision-Langage Incarné à supervision générative conçu pour combler ce fossé. Nous proposons d'intégrer une tâche de génération de carte de profondeur directement dans la phase de pré-entraînement du VLM. En entraînant cet objectif génératif conjointement avec le modèle principal, nous observons des améliorations substantielles de l'intelligence incarnée, renforçant significativement à la fois la compréhension sémantique et les capacités d'opération physique. Pour soutenir ce paradigme, nous organisons et publions GEM-4M, un vaste ensemble de données à grande échelle comprenant un mélange de données d'ancrage, de raisonnement et de planification associées à une supervision de profondeur de haute qualité. Des expériences approfondies montrent que GEM atteint des résultats de pointe sur divers bancs d'essai incarnés. De plus, notre modèle d'action déployé, GEM-VLA, démontre des capacités d'exécution de tâches largement supérieures à la fois dans des environnements de simulation et dans des évaluations en conditions réelles. Le code, les modèles et les ensembles de données sont disponibles à l'adresse https://zhaorw02.github.io/GEM/.

English

Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/