GEM: Generatieve Supervisie Helpt Belichaamde Intelligentie

Samenvatting

Belichaamde Visie-Taalmodellen (VLMs) hebben indrukwekkende prestaties en generalisatie aangetoond in de robotica, met name binnen Visie-Taal-Actie-raamwerken. Er blijft echter een significante kloof bestaan tussen de hoog-niveau semantische focus van standaard tekstgestuurde pre-trainingparadigma's en de laag-niveau ruimtelijke en fysieke kennis die cruciaal is voor uitvoering in belichaamde omgevingen. In dit artikel introduceren wij GEM, een generatief gesuperviseerd belichaamd visie-taalmodel dat is ontworpen om deze kloof te overbruggen. Wij stellen voor om een dieptekaartgeneratietaak rechtstreeks in de VLM-pre-trainingsfase te integreren. Door deze generatieve doelstelling gezamenlijk met het hoofdmodel te trainen, observeren wij aanzienlijke verbeteringen in belichaamde intelligentie, waarbij zowel het semantisch begrip als de fysieke operationele capaciteiten aanzienlijk worden versterkt. Ter ondersteuning van dit paradigma stellen wij GEM-4M samen en geven dit vrij, een uitgebreide grootschalige dataset met een mix van grondings-, redeneer- en planningsdata, gekoppeld aan hoogwaardige dieptesupervisie. Uitgebreide experimenten tonen aan dat GEM state-of-the-art resultaten behaalt op diverse belichaamde benchmarks. Bovendien vertoont ons ingezette actiemodel, GEM-VLA, aanzienlijk superieure taakuitvoeringscapaciteiten in zowel simulatieomgevingen als evaluaties in de echte wereld. Code, modellen en datasets zijn beschikbaar op https://zhaorw02.github.io/GEM/

English

Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/