GEM: Generative Supervision unterstützt verkörperte Intelligenz

Zusammenfassung

Verkörperte Vision-Language-Modelle (VLMs) haben beeindruckende Leistungen und Generalisierung in der Robotik gezeigt, insbesondere im Rahmen von Vision-Language-Action-Systemen. Es besteht jedoch weiterhin eine erhebliche Kluft zwischen der hochrangigen semantischen Ausrichtung standardmäßiger textgeführter Vortrainingsparadigmen und den für die Ausführung in verkörperten Umgebungen entscheidenden niedrigstufigen räumlichen und physikalischen Kenntnissen. In dieser Arbeit stellen wir GEM vor, ein generativ überwachtes verkörpertes Vision-Language-Modell, das diese Kluft überbrücken soll. Wir schlagen vor, eine Tiefenkarten-Generierungsaufgabe direkt in die VLM-Vortrainingsphase zu integrieren. Durch das gemeinsame Training dieses generativen Ziels mit dem Hauptmodell beobachten wir erhebliche Verbesserungen der verkörperten Intelligenz, die sowohl das semantische Verständnis als auch die physischen Operationsfähigkeiten deutlich steigern. Zur Unterstützung dieses Paradigmas kuratieren und veröffentlichen wir GEM-4M, einen umfassenden groß angelegten Datensatz, der eine Mischung aus Verankerungs-, Argumentations- und Planungsdaten mit hochwertiger Tiefenüberwachung kombiniert. Umfangreiche Experimente zeigen, dass GEM in verschiedenen verkörperten Benchmarks Spitzenergebnisse erzielt. Darüber hinaus zeigt unser eingesetztes Aktionsmodell GEM-VLA sowohl in Simulationsumgebungen als auch in realen Evaluationen deutlich überlegene Aufgabenausführungsfähigkeiten. Code, Modelle und Datensätze sind verfügbar unter https://zhaorw02.github.io/GEM/.

English

Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/