SceneVerse: Escalando el aprendizaje visión-lenguaje en 3D para la comprensión fundamentada de escenas
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
January 17, 2024
Autores: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI
Resumen
La vinculación visión-lenguaje en 3D, que se centra en alinear el lenguaje con el entorno físico tridimensional, constituye un pilar fundamental en el desarrollo de agentes corporizados. En comparación con los avances recientes en el dominio 2D, la vinculación del lenguaje en escenas 3D enfrenta varios desafíos significativos: (i) la complejidad inherente de las escenas 3D debido a las diversas configuraciones de objetos, sus atributos ricos y las relaciones intrincadas; (ii) la escasez de datos emparejados de visión-lenguaje en 3D para apoyar el aprendizaje fundamentado; y (iii) la ausencia de un marco de aprendizaje unificado para destilar conocimiento a partir de datos 3D fundamentados. En este trabajo, buscamos abordar estos tres desafíos principales en la vinculación visión-lenguaje en 3D examinando el potencial de escalar sistemáticamente el aprendizaje de visión-lenguaje en 3D en entornos interiores. Introducimos el primer conjunto de datos de visión-lenguaje en 3D a escala de millones, SceneVerse, que abarca alrededor de 68K escenas interiores en 3D y comprende 2.5M pares visión-lenguaje derivados tanto de anotaciones humanas como de nuestro enfoque escalable basado en grafos de escenas. Demostramos que este escalamiento permite un marco de pre-entrenamiento unificado, Pre-entrenamiento Fundamentado para Escenas (GPS, por sus siglas en inglés), para el aprendizaje de visión-lenguaje en 3D. A través de experimentos exhaustivos, mostramos la efectividad de GPS al lograr un rendimiento de vanguardia en todos los puntos de referencia existentes de vinculación visual en 3D. El vasto potencial de SceneVerse y GPS se revela mediante experimentos de transferencia zero-shot en tareas desafiantes de vinculación visión-lenguaje en 3D. Sitio web del proyecto: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D
physical environment, stands as a cornerstone in the development of embodied
agents. In comparison to recent advancements in the 2D domain, grounding
language in 3D scenes faces several significant challenges: (i) the inherent
complexity of 3D scenes due to the diverse object configurations, their rich
attributes, and intricate relationships; (ii) the scarcity of paired 3D
vision-language data to support grounded learning; and (iii) the absence of a
unified learning framework to distill knowledge from grounded 3D data. In this
work, we aim to address these three major challenges in 3D vision-language by
examining the potential of systematically upscaling 3D vision-language learning
in indoor environments. We introduce the first million-scale 3D vision-language
dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising
2.5M vision-language pairs derived from both human annotations and our scalable
scene-graph-based generation approach. We demonstrate that this scaling allows
for a unified pre-training framework, Grounded Pre-training for Scenes (GPS),
for 3D vision-language learning. Through extensive experiments, we showcase the
effectiveness of GPS by achieving state-of-the-art performance on all existing
3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is
unveiled through zero-shot transfer experiments in the challenging 3D
vision-language tasks. Project website: https://scene-verse.github.io .