SceneVerse: Skalierung des 3D-Vision-Language-Lernens für fundiertes Szenenverständnis
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
January 17, 2024
Autoren: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI
Zusammenfassung
Die 3D-Vision-Sprache-Verankerung, die sich auf die Ausrichtung von Sprache an der 3D-physischen Umgebung konzentriert, stellt einen Eckpfeiler in der Entwicklung verkörperter Agenten dar. Im Vergleich zu den jüngsten Fortschritten im 2D-Bereich steht die Verankerung von Sprache in 3D-Szenen vor mehreren bedeutenden Herausforderungen: (i) die inhärente Komplexität von 3D-Szenen aufgrund der vielfältigen Objektkonfigurationen, ihrer reichen Attribute und komplexen Beziehungen; (ii) die Knappheit gepaarter 3D-Vision-Sprache-Daten, um verankertes Lernen zu unterstützen; und (iii) das Fehlen eines einheitlichen Lernrahmens, um Wissen aus verankerten 3D-Daten zu destillieren. In dieser Arbeit zielen wir darauf ab, diese drei großen Herausforderungen in der 3D-Vision-Sprache zu bewältigen, indem wir das Potenzial einer systematischen Skalierung des 3D-Vision-Sprache-Lernens in Innenräumen untersuchen. Wir stellen den ersten Millionen-skaligen 3D-Vision-Sprache-Datensatz, SceneVerse, vor, der etwa 68.000 3D-Innenraumszenen umfasst und aus 2,5 Millionen Vision-Sprache-Paaren besteht, die sowohl aus menschlichen Annotationen als auch aus unserem skalierbaren szenengraphbasierten Generierungsansatz stammen. Wir zeigen, dass diese Skalierung einen einheitlichen Vorausbildungsrahmen, Grounded Pre-training for Scenes (GPS), für das 3D-Vision-Sprache-Lernen ermöglicht. Durch umfangreiche Experimente demonstrieren wir die Wirksamkeit von GPS, indem wir Spitzenleistungen in allen bestehenden 3D-Visual-Grounding-Benchmarks erreichen. Das enorme Potenzial von SceneVerse und GPS wird durch Zero-Shot-Transfer-Experimente in den anspruchsvollen 3D-Vision-Sprache-Aufgaben offenbart. Projektwebsite: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D
physical environment, stands as a cornerstone in the development of embodied
agents. In comparison to recent advancements in the 2D domain, grounding
language in 3D scenes faces several significant challenges: (i) the inherent
complexity of 3D scenes due to the diverse object configurations, their rich
attributes, and intricate relationships; (ii) the scarcity of paired 3D
vision-language data to support grounded learning; and (iii) the absence of a
unified learning framework to distill knowledge from grounded 3D data. In this
work, we aim to address these three major challenges in 3D vision-language by
examining the potential of systematically upscaling 3D vision-language learning
in indoor environments. We introduce the first million-scale 3D vision-language
dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising
2.5M vision-language pairs derived from both human annotations and our scalable
scene-graph-based generation approach. We demonstrate that this scaling allows
for a unified pre-training framework, Grounded Pre-training for Scenes (GPS),
for 3D vision-language learning. Through extensive experiments, we showcase the
effectiveness of GPS by achieving state-of-the-art performance on all existing
3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is
unveiled through zero-shot transfer experiments in the challenging 3D
vision-language tasks. Project website: https://scene-verse.github.io .