DL3DV-10K: Um Grande Conjunto de Dados de Cenas para Visão 3D Baseada em Aprendizado Profundo
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision
December 26, 2023
Autores: Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera
cs.AI
Resumo
Temos testemunhado progressos significativos na visão 3D baseada em aprendizado profundo, desde a aprendizagem de representação 3D baseada em campos de radiação neural (NeRF) até aplicações em síntese de novas vistas (NVS). No entanto, os conjuntos de dados existentes em nível de cena para visão 3D baseada em aprendizado profundo, limitados a ambientes sintéticos ou a uma seleção restrita de cenas do mundo real, são bastante insuficientes. Essa insuficiência não apenas dificulta uma avaliação abrangente dos métodos existentes, mas também limita o que poderia ser explorado na análise 3D baseada em aprendizado profundo. Para abordar essa lacuna crítica, apresentamos o DL3DV-10K, um conjunto de dados em grande escala de cenas, contendo 51,2 milhões de quadros de 10.510 vídeos capturados em 65 tipos de locais de interesse (POI), abrangendo tanto cenas delimitadas quanto ilimitadas, com diferentes níveis de reflexão, transparência e iluminação. Realizamos uma avaliação abrangente de métodos recentes de NVS no DL3DV-10K, o que revelou insights valiosos para pesquisas futuras em NVS. Além disso, obtivemos resultados encorajadores em um estudo piloto para aprender NeRF generalizável a partir do DL3DV-10K, o que manifesta a necessidade de um conjunto de dados em grande escala em nível de cena para pavimentar o caminho em direção a um modelo base para a aprendizagem de representação 3D. Nosso conjunto de dados DL3DV-10K, resultados de avaliação e modelos estarão publicamente acessíveis em https://dl3dv-10k.github.io/DL3DV-10K/.
English
We have witnessed significant progress in deep learning-based 3D vision,
ranging from neural radiance field (NeRF) based 3D representation learning to
applications in novel view synthesis (NVS). However, existing scene-level
datasets for deep learning-based 3D vision, limited to either synthetic
environments or a narrow selection of real-world scenes, are quite
insufficient. This insufficiency not only hinders a comprehensive benchmark of
existing methods but also caps what could be explored in deep learning-based 3D
analysis. To address this critical gap, we present DL3DV-10K, a large-scale
scene dataset, featuring 51.2 million frames from 10,510 videos captured from
65 types of point-of-interest (POI) locations, covering both bounded and
unbounded scenes, with different levels of reflection, transparency, and
lighting. We conducted a comprehensive benchmark of recent NVS methods on
DL3DV-10K, which revealed valuable insights for future research in NVS. In
addition, we have obtained encouraging results in a pilot study to learn
generalizable NeRF from DL3DV-10K, which manifests the necessity of a
large-scale scene-level dataset to forge a path toward a foundation model for
learning 3D representation. Our DL3DV-10K dataset, benchmark results, and
models will be publicly accessible at https://dl3dv-10k.github.io/DL3DV-10K/.