3D-VLA: 3D 시각-언어-행동 생성형 세계 모델
3D-VLA: A 3D Vision-Language-Action Generative World Model
March 14, 2024
저자: Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan
cs.AI
초록
최근의 시각-언어-행동(VLA) 모델들은 2D 입력에 의존하며, 3D 물리 세계의 광범위한 영역과의 통합이 부족합니다. 더욱이, 이 모델들은 지각에서 행동으로의 직접적인 매핑을 학습함으로써 행동을 예측하는데, 이는 세계의 역동성과 행동과 역동성 간의 관계를 간과합니다. 반면, 인간은 미래 시나리오에 대한 상상을 그려내고 이에 따라 행동을 계획할 수 있는 세계 모델을 가지고 있습니다. 이를 위해, 우리는 생성적 세계 모델을 통해 3D 지각, 추론, 행동을 원활하게 연결하는 새로운 형태의 체화된 기초 모델(embodied foundation model) 제품군을 도입하여 3D-VLA를 제안합니다. 구체적으로, 3D-VLA는 3D 기반의 대형 언어 모델(LLM) 위에 구축되며, 체화된 환경과 상호작용하기 위한 일련의 상호작용 토큰이 도입됩니다. 또한, 모델에 생성 능력을 주입하기 위해, 우리는 일련의 체화된 확산 모델(embodied diffusion model)을 학습시키고 이를 LLM에 정렬하여 목표 이미지와 포인트 클라우드를 예측합니다. 3D-VLA를 학습시키기 위해, 우리는 기존의 로보틱스 데이터셋에서 방대한 3D 관련 정보를 추출하여 대규모 3D 체화된 명령 데이터셋을 구축했습니다. 우리의 실험 결과, 3D-VLA는 체화된 환경에서의 추론, 다중모달 생성, 계획 능력을 크게 향상시키며, 실제 세계 응용에서의 잠재력을 보여줍니다.
English
Recent vision-language-action (VLA) models rely on 2D inputs, lacking
integration with the broader realm of the 3D physical world. Furthermore, they
perform action prediction by learning a direct mapping from perception to
action, neglecting the vast dynamics of the world and the relations between
actions and dynamics. In contrast, human beings are endowed with world models
that depict imagination about future scenarios to plan actions accordingly. To
this end, we propose 3D-VLA by introducing a new family of embodied foundation
models that seamlessly link 3D perception, reasoning, and action through a
generative world model. Specifically, 3D-VLA is built on top of a 3D-based
large language model (LLM), and a set of interaction tokens is introduced to
engage with the embodied environment. Furthermore, to inject generation
abilities into the model, we train a series of embodied diffusion models and
align them into the LLM for predicting the goal images and point clouds. To
train our 3D-VLA, we curate a large-scale 3D embodied instruction dataset by
extracting vast 3D-related information from existing robotics datasets. Our
experiments on held-in datasets demonstrate that 3D-VLA significantly improves
the reasoning, multimodal generation, and planning capabilities in embodied
environments, showcasing its potential in real-world applications.Summary
AI-Generated Summary