DL3DV-10K: Un ampio dataset di scene per la visione 3D basata su deep learning
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Autori: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Abstract
Abbiamo assistito a progressi significativi nella visione 3D basata sul deep learning, che spaziano dall'apprendimento della rappresentazione 3D basata su campi di radianza neurale (NeRF) alle applicazioni nella sintesi di nuove viste (NVS). Tuttavia, i dataset esistenti a livello di scena per la visione 3D basata sul deep learning, limitati a ambienti sintetici o a una ristretta selezione di scene del mondo reale, sono piuttosto insufficienti. Questa insufficienza non solo ostacola una valutazione completa dei metodi esistenti, ma limita anche ciò che potrebbe essere esplorato nell'analisi 3D basata sul deep learning. Per colmare questa lacuna critica, presentiamo DL3DV-10K, un dataset di scene su larga scala, che comprende 51,2 milioni di frame da 10.510 video catturati da 65 tipi di luoghi di interesse (POI), coprendo sia scene delimitate che illimitate, con diversi livelli di riflessione, trasparenza e illuminazione. Abbiamo condotto una valutazione completa dei recenti metodi NVS su DL3DV-10K, che ha rivelato intuizioni preziose per la ricerca futura in NVS. Inoltre, abbiamo ottenuto risultati incoraggianti in uno studio pilota per apprendere NeRF generalizzabile da DL3DV-10K, che dimostra la necessità di un dataset di scene su larga scala per tracciare un percorso verso un modello di base per l'apprendimento della rappresentazione 3D. Il nostro dataset DL3DV-10K, i risultati delle valutazioni e i modelli saranno accessibili pubblicamente all'indirizzo https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.