DL3DV-10K: Un conjunto de datos de escenas a gran escala para visión 3D basada en aprendizaje profundo
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Autores: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Resumen
Hemos presenciado avances significativos en la visión 3D basada en aprendizaje profundo, que van desde el aprendizaje de representación 3D basado en campos de radiancia neural (NeRF) hasta aplicaciones en la síntesis de nuevas vistas (NVS). Sin embargo, los conjuntos de datos a nivel de escena existentes para la visión 3D basada en aprendizaje profundo, limitados a entornos sintéticos o a una selección reducida de escenas del mundo real, son bastante insuficientes. Esta insuficiencia no solo dificulta una evaluación integral de los métodos existentes, sino que también limita lo que podría explorarse en el análisis 3D basado en aprendizaje profundo. Para abordar esta brecha crítica, presentamos DL3DV-10K, un conjunto de datos de escenas a gran escala, que incluye 51.2 millones de fotogramas de 10,510 videos capturados en 65 tipos de ubicaciones de interés (POI), cubriendo tanto escenas delimitadas como no delimitadas, con diferentes niveles de reflexión, transparencia e iluminación. Realizamos una evaluación exhaustiva de los métodos recientes de NVS en DL3DV-10K, lo que reveló valiosas ideas para futuras investigaciones en NVS. Además, hemos obtenido resultados alentadores en un estudio piloto para aprender NeRF generalizable a partir de DL3DV-10K, lo que manifiesta la necesidad de un conjunto de datos a gran escala a nivel de escena para abrir camino hacia un modelo base para el aprendizaje de representación 3D. Nuestro conjunto de datos DL3DV-10K, los resultados de la evaluación y los modelos estarán disponibles públicamente en https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.