DL3DV-10K: Een grootschalige scène-dataset voor diep leren-gebaseerd 3D-zicht
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Auteurs: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Samenvatting
We hebben aanzienlijke vooruitgang gezien in deep learning-gebaseerde 3D-visie, variërend van neurale stralingsveld (NeRF) gebaseerd 3D-representatie leren tot toepassingen in nieuwe weergave synthese (NVS). Bestaande scene-level datasets voor deep learning-gebaseerde 3D-visie, beperkt tot ofwel synthetische omgevingen of een beperkte selectie van real-world scenes, zijn echter ontoereikend. Deze ontoereikendheid belemmert niet alleen een uitgebreide benchmark van bestaande methoden, maar beperkt ook wat er kan worden onderzocht in deep learning-gebaseerde 3D-analyse. Om dit kritieke gat te dichten, presenteren we DL3DV-10K, een grootschalige scene dataset, met 51,2 miljoen frames uit 10.510 video's vastgelegd op 65 soorten punten van belang (POI) locaties, die zowel begrensde als onbegrensde scenes omvatten, met verschillende niveaus van reflectie, transparantie en belichting. We hebben een uitgebreide benchmark uitgevoerd van recente NVS-methoden op DL3DV-10K, wat waardevolle inzichten heeft opgeleverd voor toekomstig onderzoek in NVS. Daarnaast hebben we bemoedigende resultaten behaald in een pilotstudie om generaliseerbare NeRF te leren van DL3DV-10K, wat de noodzaak aantoont van een grootschalige scene-level dataset om een pad te banen naar een foundation model voor het leren van 3D-representatie. Onze DL3DV-10K dataset, benchmarkresultaten en modellen zullen publiek toegankelijk zijn op https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.