ChatPaper.aiChatPaper

SceneVerse: Escalonando o Aprendizado Visão-Linguagem 3D para a Compreensão Fundamentada de Cenas

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

January 17, 2024
Autores: Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
cs.AI

Resumo

A fundamentação visão-linguagem 3D, que se concentra em alinhar a linguagem com o ambiente físico 3D, constitui um pilar fundamental no desenvolvimento de agentes corporificados. Em comparação com os avanços recentes no domínio 2D, a fundamentação da linguagem em cenas 3D enfrenta vários desafios significativos: (i) a complexidade inerente das cenas 3D devido às diversas configurações de objetos, seus atributos ricos e relações intrincadas; (ii) a escassez de dados pareados visão-linguagem 3D para apoiar o aprendizado fundamentado; e (iii) a ausência de uma estrutura de aprendizado unificada para destilar conhecimento a partir de dados 3D fundamentados. Neste trabalho, buscamos abordar esses três principais desafios na visão-linguagem 3D, examinando o potencial de escalonar sistematicamente o aprendizado visão-linguagem 3D em ambientes internos. Introduzimos o primeiro conjunto de dados em escala milionária para visão-linguagem 3D, o SceneVerse, abrangendo cerca de 68 mil cenas 3D internas e composto por 2,5 milhões de pares visão-linguagem derivados tanto de anotações humanas quanto de nossa abordagem escalável de geração baseada em grafos de cena. Demonstramos que esse escalonamento permite uma estrutura de pré-treinamento unificada, o Pré-treinamento Fundamentado para Cenas (GPS), para o aprendizado visão-linguagem 3D. Por meio de extensos experimentos, destacamos a eficácia do GPS ao alcançar desempenho de ponta em todos os benchmarks existentes de fundamentação visual 3D. O vasto potencial do SceneVerse e do GPS é revelado por meio de experimentos de transferência zero-shot em tarefas desafiadoras de visão-linguagem 3D. Site do projeto: https://scene-verse.github.io.
English
3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io .
PDF211December 15, 2024