ChatPaper.aiChatPaper

SceneVerse : Mise à l'échelle de l'apprentissage vision-langage 3D pour la compréhension contextuelle des scènes

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

January 17, 2024
Auteurs: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI

Résumé

L'ancrage 3D vision-langage, qui se concentre sur l'alignement du langage avec l'environnement physique en 3D, constitue une pierre angulaire dans le développement d'agents incarnés. Par rapport aux avancées récentes dans le domaine 2D, l'ancrage du langage dans des scènes 3D présente plusieurs défis majeurs : (i) la complexité inhérente des scènes 3D due à la diversité des configurations d'objets, leurs attributs riches et les relations complexes ; (ii) la rareté des données vision-langage 3D appariées pour soutenir l'apprentissage ancré ; et (iii) l'absence d'un cadre d'apprentissage unifié pour distiller les connaissances à partir de données 3D ancrées. Dans ce travail, nous visons à relever ces trois défis majeurs en vision-langage 3D en examinant le potentiel d'une mise à l'échelle systématique de l'apprentissage vision-langage 3D dans des environnements intérieurs. Nous introduisons le premier jeu de données vision-langage 3D à l'échelle du million, SceneVerse, englobant environ 68 000 scènes 3D intérieures et comprenant 2,5 millions de paires vision-langage dérivées à la fois d'annotations humaines et de notre approche générative basée sur des graphes de scène. Nous démontrons que cette mise à l'échelle permet un cadre de pré-entraînement unifié, Grounded Pre-training for Scenes (GPS), pour l'apprentissage vision-langage 3D. À travers des expériences approfondies, nous montrons l'efficacité de GPS en atteignant des performances de pointe sur tous les benchmarks existants d'ancrage visuel 3D. Le potentiel immense de SceneVerse et GPS est révélé à travers des expériences de transfert zero-shot dans des tâches vision-langage 3D complexes. Site du projet : https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io .
PDF221December 15, 2024