SceneVerse: Scalabilità dell'Apprendimento Visione-Linguaggio 3D per la Comprensione Contestualizzata delle Scene
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
January 17, 2024
Autori: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI
Abstract
Il grounding visivo-linguistico 3D, che si concentra sull'allineamento del linguaggio con l'ambiente fisico tridimensionale, rappresenta una pietra angolare nello sviluppo di agenti incarnati. Rispetto ai recenti progressi nel dominio 2D, il grounding del linguaggio nelle scene 3D affronta diverse sfide significative: (i) la complessità intrinseca delle scene 3D dovuta alle configurazioni diversificate degli oggetti, ai loro attributi ricchi e alle relazioni intricate; (ii) la scarsità di dati accoppiati visivo-linguistici 3D per supportare l'apprendimento basato sul grounding; e (iii) l'assenza di un framework di apprendimento unificato per distillare la conoscenza dai dati 3D con grounding. In questo lavoro, miriamo a affrontare queste tre principali sfide nel campo visivo-linguistico 3D esaminando il potenziale di un ampliamento sistematico dell'apprendimento visivo-linguistico 3D in ambienti indoor. Introduciamo il primo dataset su larga scala per il visivo-linguistico 3D, SceneVerse, che comprende circa 68K scene 3D indoor e 2.5M coppie visivo-linguistiche derivate sia da annotazioni umane che dal nostro approccio scalabile di generazione basato su scene-graph. Dimostriamo che questa scalabilità consente un framework di pre-training unificato, Grounded Pre-training for Scenes (GPS), per l'apprendimento visivo-linguistico 3D. Attraverso esperimenti estensivi, evidenziamo l'efficacia di GPS ottenendo prestazioni all'avanguardia su tutti i benchmark esistenti di grounding visivo 3D. Il vasto potenziale di SceneVerse e GPS viene rivelato attraverso esperimenti di trasferimento zero-shot in impegnativi compiti visivo-linguistici 3D. Sito web del progetto: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D
physical environment, stands as a cornerstone in the development of embodied
agents. In comparison to recent advancements in the 2D domain, grounding
language in 3D scenes faces several significant challenges: (i) the inherent
complexity of 3D scenes due to the diverse object configurations, their rich
attributes, and intricate relationships; (ii) the scarcity of paired 3D
vision-language data to support grounded learning; and (iii) the absence of a
unified learning framework to distill knowledge from grounded 3D data. In this
work, we aim to address these three major challenges in 3D vision-language by
examining the potential of systematically upscaling 3D vision-language learning
in indoor environments. We introduce the first million-scale 3D vision-language
dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising
2.5M vision-language pairs derived from both human annotations and our scalable
scene-graph-based generation approach. We demonstrate that this scaling allows
for a unified pre-training framework, Grounded Pre-training for Scenes (GPS),
for 3D vision-language learning. Through extensive experiments, we showcase the
effectiveness of GPS by achieving state-of-the-art performance on all existing
3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is
unveiled through zero-shot transfer experiments in the challenging 3D
vision-language tasks. Project website: https://scene-verse.github.io .