ChatPaper.aiChatPaper

SceneVerse: Schaalvergroting van 3D Visie-Taal Leren voor Gegrond Scènebegrip

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

January 17, 2024
Auteurs: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI

Samenvatting

3D vision-language grounding, dat zich richt op het afstemmen van taal op de 3D-fysieke omgeving, vormt een hoeksteen in de ontwikkeling van belichaamde agents. In vergelijking met recente vooruitgang in het 2D-domein, kent het grondvesten van taal in 3D-scènes enkele aanzienlijke uitdagingen: (i) de inherente complexiteit van 3D-scènes vanwege de diverse objectconfiguraties, hun rijke attributen en ingewikkelde relaties; (ii) de schaarste aan gepaarde 3D vision-language data om gegrond leren te ondersteunen; en (iii) het ontbreken van een uniform leerkader om kennis te destilleren uit gegronde 3D-data. In dit werk streven we ernaar deze drie grote uitdagingen in 3D vision-language aan te pakken door het potentieel te onderzoeken van het systematisch opschalen van 3D vision-language leren in binnenomgevingen. We introduceren de eerste miljoen-schaal 3D vision-language dataset, SceneVerse, die ongeveer 68K 3D-binnenscènes omvat en bestaat uit 2,5M vision-language paren afgeleid van zowel menselijke annotaties als onze schaalbare scene-graph-gebaseerde generatiebenadering. We tonen aan dat deze schaalvergroting een uniform pre-trainingskader mogelijk maakt, Grounded Pre-training for Scenes (GPS), voor 3D vision-language leren. Door middel van uitgebreide experimenten demonstreren we de effectiviteit van GPS door state-of-the-art prestaties te behalen op alle bestaande 3D visual grounding benchmarks. Het enorme potentieel van SceneVerse en GPS wordt onthuld door zero-shot transfer experimenten in uitdagende 3D vision-language taken. Projectwebsite: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io .
PDF211December 15, 2024