SceneVerse: 근거 있는 장면 이해를 위한 3D 비전-언어 학습의 확장
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
January 17, 2024
저자: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI
초록
3D 시각-언어 그라운딩은 언어를 3D 물리적 환경과 정렬하는 데 초점을 맞추며, 구현된 에이전트 개발의 초석으로 자리 잡고 있다. 최근 2D 영역에서의 발전과 비교할 때, 3D 장면에서 언어를 그라운딩하는 데는 몇 가지 중요한 도전 과제가 존재한다: (i) 다양한 객체 구성, 풍부한 속성, 복잡한 관계로 인한 3D 장면의 본질적 복잡성; (ii) 그라운디드 학습을 지원하기 위한 짝을 이루는 3D 시각-언어 데이터의 부족; 그리고 (iii) 그라운디드 3D 데이터로부터 지식을 추출하기 위한 통합 학습 프레임워크의 부재. 본 연구에서는 실내 환경에서 3D 시각-언어 학습을 체계적으로 확장하는 잠재력을 검토함으로써 3D 시각-언어 분야의 이 세 가지 주요 도전 과제를 해결하고자 한다. 우리는 약 68,000개의 3D 실내 장면과 인간 주석 및 확장 가능한 장면 그래프 기반 생성 접근법에서 도출된 250만 개의 시각-언어 쌍을 포함하는 최초의 백만 규모 3D 시각-언어 데이터셋인 SceneVerse를 소개한다. 우리는 이러한 확장이 3D 시각-언어 학습을 위한 통합 사전 학습 프레임워크인 Grounded Pre-training for Scenes (GPS)를 가능하게 함을 보여준다. 광범위한 실험을 통해 GPS의 효과를 입증하며, 기존의 모든 3D 시각 그라운딩 벤치마크에서 최첨단 성능을 달성한다. SceneVerse와 GPS의 방대한 잠재력은 도전적인 3D 시각-언어 작업에서의 제로샷 전이 실험을 통해 드러난다. 프로젝트 웹사이트: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D
physical environment, stands as a cornerstone in the development of embodied
agents. In comparison to recent advancements in the 2D domain, grounding
language in 3D scenes faces several significant challenges: (i) the inherent
complexity of 3D scenes due to the diverse object configurations, their rich
attributes, and intricate relationships; (ii) the scarcity of paired 3D
vision-language data to support grounded learning; and (iii) the absence of a
unified learning framework to distill knowledge from grounded 3D data. In this
work, we aim to address these three major challenges in 3D vision-language by
examining the potential of systematically upscaling 3D vision-language learning
in indoor environments. We introduce the first million-scale 3D vision-language
dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising
2.5M vision-language pairs derived from both human annotations and our scalable
scene-graph-based generation approach. We demonstrate that this scaling allows
for a unified pre-training framework, Grounded Pre-training for Scenes (GPS),
for 3D vision-language learning. Through extensive experiments, we showcase the
effectiveness of GPS by achieving state-of-the-art performance on all existing
3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is
unveiled through zero-shot transfer experiments in the challenging 3D
vision-language tasks. Project website: https://scene-verse.github.io .