SceneVerse: Schaalvergroting van 3D Visie-Taal Leren voor Gegrond Scènebegrip
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
January 17, 2024
Auteurs: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI
Samenvatting
3D vision-language grounding, dat zich richt op het afstemmen van taal op de 3D-fysieke omgeving, vormt een hoeksteen in de ontwikkeling van belichaamde agents. In vergelijking met recente vooruitgang in het 2D-domein, kent het grondvesten van taal in 3D-scènes enkele aanzienlijke uitdagingen: (i) de inherente complexiteit van 3D-scènes vanwege de diverse objectconfiguraties, hun rijke attributen en ingewikkelde relaties; (ii) de schaarste aan gepaarde 3D vision-language data om gegrond leren te ondersteunen; en (iii) het ontbreken van een uniform leerkader om kennis te destilleren uit gegronde 3D-data. In dit werk streven we ernaar deze drie grote uitdagingen in 3D vision-language aan te pakken door het potentieel te onderzoeken van het systematisch opschalen van 3D vision-language leren in binnenomgevingen. We introduceren de eerste miljoen-schaal 3D vision-language dataset, SceneVerse, die ongeveer 68K 3D-binnenscènes omvat en bestaat uit 2,5M vision-language paren afgeleid van zowel menselijke annotaties als onze schaalbare scene-graph-gebaseerde generatiebenadering. We tonen aan dat deze schaalvergroting een uniform pre-trainingskader mogelijk maakt, Grounded Pre-training for Scenes (GPS), voor 3D vision-language leren. Door middel van uitgebreide experimenten demonstreren we de effectiviteit van GPS door state-of-the-art prestaties te behalen op alle bestaande 3D visual grounding benchmarks. Het enorme potentieel van SceneVerse en GPS wordt onthuld door zero-shot transfer experimenten in uitdagende 3D vision-language taken. Projectwebsite: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D
physical environment, stands as a cornerstone in the development of embodied
agents. In comparison to recent advancements in the 2D domain, grounding
language in 3D scenes faces several significant challenges: (i) the inherent
complexity of 3D scenes due to the diverse object configurations, their rich
attributes, and intricate relationships; (ii) the scarcity of paired 3D
vision-language data to support grounded learning; and (iii) the absence of a
unified learning framework to distill knowledge from grounded 3D data. In this
work, we aim to address these three major challenges in 3D vision-language by
examining the potential of systematically upscaling 3D vision-language learning
in indoor environments. We introduce the first million-scale 3D vision-language
dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising
2.5M vision-language pairs derived from both human annotations and our scalable
scene-graph-based generation approach. We demonstrate that this scaling allows
for a unified pre-training framework, Grounded Pre-training for Scenes (GPS),
for 3D vision-language learning. Through extensive experiments, we showcase the
effectiveness of GPS by achieving state-of-the-art performance on all existing
3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is
unveiled through zero-shot transfer experiments in the challenging 3D
vision-language tasks. Project website: https://scene-verse.github.io .