DF3DV-1K: Um Conjunto de Dados e Benchmark em Grande Escala para Síntese de Novas Visões Livre de Distratores

Resumo

Avanços em campos de radiância possibilitaram a síntese fotorealística de novas vistas. Em diversos domínios, conjuntos de dados reais em grande escala foram desenvolvidos para apoiar avaliações comparativas abrangentes e facilitar o progresso além da reconstrução específica de cenas. No entanto, para campos de radiância livres de distrações, ainda falta um conjunto de dados em grande escala com imagens limpas e com distrações por cena, limitando o desenvolvimento. Para preencher essa lacuna, apresentamos o DF3DV-1K, um conjunto de dados real em grande escala composto por 1.048 cenas, cada uma fornecendo conjuntos de imagens limpas e com distrações para avaliação comparativa. No total, o conjunto de dados contém 89.924 imagens capturadas com câmeras de consumo para simular captura casual, abrangendo 128 tipos de distrações e 161 temas de cena em ambientes internos e externos. Um subconjunto selecionado de 41 cenas, o DF3DV-41, é projetado sistematicamente para avaliar a robustez de métodos de campos de radiância livres de distrações em cenários desafiadores. Utilizando o DF3DV-1K, avaliamos nove métodos recentes de campos de radiância livres de distrações e o 3D Gaussian Splatting, identificando os métodos mais robustos e os cenários mais desafiadores. Além da avaliação comparativa, demonstramos uma aplicação do DF3DV-1K ao ajustar finamente um aprimorador 2D baseado em difusão para melhorar métodos de campos de radiância, obtendo melhorias médias de 0,96 dB de PSNR e 0,057 de LPIPS no conjunto reservado (por exemplo, DF3DV-41) e no conjunto de dados On-the-go. Esperamos que o DF3DV-1K facilite o desenvolvimento da visão livre de distrações e promova o progresso além das abordagens específicas de cena. O conjunto de dados e o leaderboard estão disponíveis em https://johnnylu305.github.io/df3dv1k_web/.

English

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a large-scale dataset with clean and cluttered images per scene remains lacking, limiting the development. To address this gap, we introduce DF3DV-1K, a large-scale real-world dataset comprising 1,048 scenes, each providing clean and cluttered image sets for benchmarking. In total, the dataset contains 89,924 images captured using consumer cameras to mimic casual capture, spanning 128 distractor types and 161 scene themes across indoor and outdoor environments. A curated subset of 41 scenes, DF3DV-41, is systematically designed to evaluate the robustness of distractor-free radiance field methods under challenging scenarios. Using DF3DV-1K, we benchmark nine recent distractor-free radiance field methods and 3D Gaussian Splatting, identifying the most robust methods and the most challenging scenarios. Beyond benchmarking, we demonstrate an application of DF3DV-1K by fine-tuning a diffusion-based 2D enhancer to improve radiance field methods, achieving average improvements of 0.96 dB PSNR and 0.057 LPIPS on the held-out set (e.g., DF3DV-41) and the On-the-go dataset. We hope DF3DV-1K facilitates the development of distractor-free vision and promotes progress beyond scene-specific approaches. The dataset and leaderboard are available at https://johnnylu305.github.io/df3dv1k_web/.