SceneVerse: Масштабирование 3D-визуально-языкового обучения для обоснованного понимания сцен
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
January 17, 2024
Авторы: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI
Аннотация
3D визуально-языковое заземление, которое сосредоточено на согласовании языка с трехмерной физической средой, является краеугольным камнем в разработке воплощенных агентов. По сравнению с недавними достижениями в двумерной области, заземление языка в трехмерных сценах сталкивается с несколькими значительными проблемами: (i) присущая сложность трехмерных сцен из-за разнообразных конфигураций объектов, их богатых атрибутов и сложных взаимосвязей; (ii) недостаток парных данных визуально-языкового заземления в 3D для поддержки обучения; и (iii) отсутствие унифицированной обучающей структуры для извлечения знаний из заземленных 3D данных. В данной работе мы стремимся решить эти три основные проблемы в области 3D визуально-языкового заземления, исследуя потенциал систематического масштабирования обучения в трехмерных визуально-языковых средах в помещениях. Мы представляем первый миллионный набор данных 3D визуально-языкового заземления, SceneVerse, охватывающий около 68K трехмерных сцен в помещениях и включающий 2.5M пар визуально-языковых данных, полученных как из человеческих аннотаций, так и из нашего масштабируемого подхода на основе сценарных графов. Мы демонстрируем, что такое масштабирование позволяет создать унифицированную структуру предварительного обучения, Grounded Pre-training for Scenes (GPS), для 3D визуально-языкового обучения. Благодаря обширным экспериментам мы показываем эффективность GPS, достигая наилучших результатов на всех существующих бенчмарках 3D визуального заземления. Огромный потенциал SceneVerse и GPS раскрывается через эксперименты с нулевым переносом в сложных задачах 3D визуально-языкового заземления. Сайт проекта: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D
physical environment, stands as a cornerstone in the development of embodied
agents. In comparison to recent advancements in the 2D domain, grounding
language in 3D scenes faces several significant challenges: (i) the inherent
complexity of 3D scenes due to the diverse object configurations, their rich
attributes, and intricate relationships; (ii) the scarcity of paired 3D
vision-language data to support grounded learning; and (iii) the absence of a
unified learning framework to distill knowledge from grounded 3D data. In this
work, we aim to address these three major challenges in 3D vision-language by
examining the potential of systematically upscaling 3D vision-language learning
in indoor environments. We introduce the first million-scale 3D vision-language
dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising
2.5M vision-language pairs derived from both human annotations and our scalable
scene-graph-based generation approach. We demonstrate that this scaling allows
for a unified pre-training framework, Grounded Pre-training for Scenes (GPS),
for 3D vision-language learning. Through extensive experiments, we showcase the
effectiveness of GPS by achieving state-of-the-art performance on all existing
3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is
unveiled through zero-shot transfer experiments in the challenging 3D
vision-language tasks. Project website: https://scene-verse.github.io .