DL3DV-10K : Un jeu de données de scènes à grande échelle pour la vision 3D basée sur l'apprentissage profond
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Auteurs: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Résumé
Nous avons assisté à des progrès significatifs dans la vision 3D basée sur l'apprentissage profond, allant de l'apprentissage de représentations 3D basé sur les champs de radiance neuronaux (NeRF) aux applications dans la synthèse de nouvelles vues (NVS). Cependant, les ensembles de données existants au niveau scénique pour la vision 3D basée sur l'apprentissage profond, limités soit à des environnements synthétiques, soit à une sélection restreinte de scènes du monde réel, sont tout à fait insuffisants. Cette insuffisance non seulement entrave une évaluation complète des méthodes existantes, mais limite également ce qui pourrait être exploré dans l'analyse 3D basée sur l'apprentissage profond. Pour combler cette lacune critique, nous présentons DL3DV-10K, un ensemble de données scénique à grande échelle, comprenant 51,2 millions d'images issues de 10 510 vidéos capturées dans 65 types de lieux d'intérêt (POI), couvrant à la fois des scènes délimitées et non délimitées, avec différents niveaux de réflexion, de transparence et d'éclairage. Nous avons réalisé une évaluation complète des méthodes récentes de NVS sur DL3DV-10K, ce qui a révélé des insights précieux pour les recherches futures en NVS. De plus, nous avons obtenu des résultats encourageants dans une étude pilote visant à apprendre un NeRF généralisable à partir de DL3DV-10K, ce qui manifeste la nécessité d'un ensemble de données scénique à grande échelle pour ouvrir la voie vers un modèle de base pour l'apprentissage de représentations 3D. Notre ensemble de données DL3DV-10K, les résultats d'évaluation et les modèles seront accessibles publiquement à l'adresse https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.