DL3DV-10K: Крупномасштабный набор данных сцен для глубокого обучения в задачах 3D-зрения
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Авторы: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Аннотация
Мы наблюдаем значительный прогресс в области трехмерного зрения на основе глубокого обучения, начиная с обучения представлениям 3D на основе нейронных полей излучения (NeRF) и заканчивая приложениями в синтезе новых видов (NVS). Однако существующие наборы данных на уровне сцен для трехмерного зрения на основе глубокого обучения, ограниченные либо синтетическими средами, либо узким выбором реальных сцен, являются крайне недостаточными. Эта недостаточность не только препятствует всестороннему тестированию существующих методов, но и ограничивает возможности исследования в области анализа 3D на основе глубокого обучения. Чтобы устранить этот критический пробел, мы представляем DL3DV-10K — крупномасштабный набор данных сцен, содержащий 51,2 миллиона кадров из 10 510 видеороликов, снятых в 65 типах точек интереса (POI), охватывающих как ограниченные, так и неограниченные сцены с различными уровнями отражения, прозрачности и освещения. Мы провели всестороннее тестирование современных методов NVS на DL3DV-10K, что позволило получить ценные инсайты для будущих исследований в области NVS. Кроме того, мы получили обнадеживающие результаты в пилотном исследовании по обучению обобщаемого NeRF на основе DL3DV-10K, что подчеркивает необходимость крупномасштабного набора данных на уровне сцен для создания фундаментальной модели обучения представлений 3D. Наш набор данных DL3DV-10K, результаты тестирования и модели будут общедоступны по адресу https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.