ChatPaper.aiChatPaper

GEM: 생성적 감독이 체화된 지능에 도움을 준다

GEM: Generative Supervision Helps Embodied Intelligence

May 27, 2026
저자: Ruowen Zhao, Bangguo Li, Zuyan Liu, Yinan Liang, Junliang Ye, Fangfu Liu, Diankun Wu, Zhengyi Wang, Xumin Yu, Yongming Rao, Han Hu, Jun Zhu
cs.AI

초록

구현형 시각-언어 모델(VLM)은 특히 시각-언어-행동 프레임워크 내에서 로봇 공학 분야에 인상적인 성능과 일반화 능력을 입증해 왔다. 그러나 표준 텍스트 기반 사전 학습 패러다임의 고수준 의미 중심과 구현 환경에서 실행에 중요한 저수준 공간 및 물리적 지식 사이에는 여전히 상당한 격차가 존재한다. 본 논문에서는 이러한 격차를 해소하기 위해 설계된 GEM(생성적 지도 학습 기반 구현형 시각-언어 모델)을 소개한다. 우리는 깊이 맵 생성 작업을 VLM 사전 학습 단계에 직접 통합할 것을 제안한다. 이 생성적 목표를 주 모델과 함께 공동으로 학습함으로써, 구현형 지능에서 실질적인 개선을 관찰하였으며, 의미 이해와 물리적 조작 능력이 모두 크게 향상되었다. 이러한 패러다임을 지원하기 위해, 우리는 grounding, 추론, 계획 데이터와 고품질 깊이 감독 정보가 결합된 포괄적인 대규모 데이터셋인 GEM-4M을 선별하여 공개한다. 광범위한 실험을 통해 GEM이 다양한 구현형 벤치마크에서 최첨단 결과를 달성함을 입증한다. 또한, 우리가 배포한 행동 모델인 GEM-VLA는 시뮬레이션 환경과 실제 환경 평가 모두에서 훨씬 뛰어난 작업 실행 능력을 보여준다. 코드, 모델 및 데이터셋은 https://zhaorw02.github.io/GEM/ 에서 확인할 수 있다.
English
Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/