DL3DV-10K: 딥러닝 기반 3D 비전을 위한 대규모 장면 데이터셋
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
저자: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
초록
딥러닝 기반 3D 비전 분야에서는 신경 방사 필드(NeRF) 기반 3D 표현 학습부터 새로운 시점 합성(NVS) 응용에 이르기까지 상당한 진전을 목격했습니다. 그러나 기존의 딥러닝 기반 3D 비전을 위한 장면 수준 데이터셋은 합성 환경이나 제한된 실제 장면으로만 구성되어 있어 상당히 부족한 실정입니다. 이러한 부족은 기존 방법론의 포괄적인 벤치마킹을 방해할 뿐만 아니라 딥러닝 기반 3D 분석에서 탐구할 수 있는 가능성을 제한합니다. 이러한 중요한 격차를 해결하기 위해, 우리는 DL3DV-10K라는 대규모 장면 데이터셋을 제안합니다. 이 데이터셋은 65종류의 관심 지점(POI)에서 촬영된 10,510개의 비디오로부터 추출된 5,120만 프레임으로 구성되어 있으며, 경계가 있는 장면과 없는 장면을 모두 포함하고, 다양한 수준의 반사, 투명도, 조명 조건을 다룹니다. 우리는 DL3DV-10K를 사용하여 최근의 NVS 방법론들을 포괄적으로 벤치마킹했으며, 이를 통해 NVS 연구의 미래를 위한 귀중한 통찰을 얻었습니다. 또한, DL3DV-10K로부터 일반화 가능한 NeRF를 학습하는 파일럿 연구에서도 고무적인 결과를 얻었는데, 이는 3D 표현 학습을 위한 기초 모델로 나아가기 위해 대규모 장면 수준 데이터셋의 필요성을 보여줍니다. 우리의 DL3DV-10K 데이터셋, 벤치마크 결과, 그리고 모델들은 https://dl3dv-10k.github.io/DL3DV-10K/에서 공개될 예정입니다.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.