DL3DV-10K: Ein umfangreiches Szenen-Datensatz für Deep-Learning-basierte 3D-Vision
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Autoren: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Zusammenfassung
Wir haben bedeutende Fortschritte im Bereich des Deep Learning-basierten 3D-Sehens beobachtet, angefangen beim 3D-Repräsentationslernen basierend auf Neural Radiance Fields (NeRF) bis hin zu Anwendungen in der Synthese neuer Ansichten (Novel View Synthesis, NVS). Allerdings sind die bestehenden Szenen-Datensätze für Deep Learning-basiertes 3D-Sehen, die entweder auf synthetische Umgebungen oder eine begrenzte Auswahl realer Szenen beschränkt sind, äußerst unzureichend. Diese Unzulänglichkeit behindert nicht nur eine umfassende Bewertung bestehender Methoden, sondern begrenzt auch das Potenzial, was im Bereich der Deep Learning-basierten 3D-Analyse erforscht werden könnte. Um diese kritische Lücke zu schließen, präsentieren wir DL3DV-10K, einen groß angelegten Szenen-Datensatz, der 51,2 Millionen Frames aus 10.510 Videos umfasst, die an 65 Arten von Points of Interest (POI) aufgenommen wurden. Der Datensatz deckt sowohl begrenzte als auch unbegrenzte Szenen ab und bietet unterschiedliche Grade von Reflexion, Transparenz und Beleuchtung. Wir haben eine umfassende Bewertung aktueller NVS-Methoden auf DL3DV-10K durchgeführt, die wertvolle Erkenntnisse für zukünftige Forschungen im Bereich NVS lieferte. Darüber hinaus haben wir in einer Pilotstudie ermutigende Ergebnisse erzielt, die zeigen, dass es möglich ist, generalisierbare NeRF-Modelle aus DL3DV-10K zu lernen. Dies unterstreicht die Notwendigkeit eines groß angelegten Szenen-Datensatzes, um den Weg zu einem Foundation-Modell für das Lernen von 3D-Repräsentationen zu ebnen. Unser DL3DV-10K-Datensatz, die Benchmark-Ergebnisse und Modelle werden öffentlich zugänglich sein unter https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.