DF3DV-1K: Un dataset y benchmark a gran escala para síntesis de vistas novedosas sin distractores

Resumen

Los avances en campos de radiancia han permitido la síntesis fotorrealista de nuevas vistas. En diversos dominios, se han desarrollado conjuntos de datos a gran escala del mundo real para respaldar evaluaciones comparativas integrales y facilitar el progreso más allá de la reconstrucción específica de escenas. Sin embargo, para campos de radiancia libres de distractores, aún no existe un conjunto de datos a gran escala con imágenes limpias y con distractores por escena, lo que limita el desarrollo. Para abordar esta carencia, presentamos DF3DV-1K, un conjunto de datos a gran escala del mundo real que comprende 1,048 escenas, cada una de las cuales proporciona conjuntos de imágenes limpias y con distractores para evaluación comparativa. En total, el conjunto de datos contiene 89,924 imágenes capturadas con cámaras de consumo para simular una captura casual, abarcando 128 tipos de distractores y 161 temáticas escénicas en entornos interiores y exteriores. Un subconjunto seleccionado de 41 escenas, DF3DV-41, está diseñado sistemáticamente para evaluar la robustez de los métodos de campos de radiancia libres de distractores en escenarios desafiantes. Utilizando DF3DV-1K, evaluamos nueve métodos recientes de campos de radiancia libres de distractores y Gaussian Splatting 3D, identificando los métodos más robustos y los escenarios más desafiantes. Más allá de la evaluación comparativa, demostramos una aplicación de DF3DV-1K mediante el ajuste fino de un potenciador 2D basado en difusión para mejorar los métodos de campos de radiancia, logrando mejoras promedio de 0.96 dB en PSNR y 0.057 en LPIPS en el conjunto reservado (por ejemplo, DF3DV-41) y en el conjunto de datos On-the-go. Esperamos que DF3DV-1K facilite el desarrollo de la visión libre de distractores y promueva el progreso más allá de los enfoques específicos de escena. El conjunto de datos y el ranking están disponibles en https://johnnylu305.github.io/df3dv1k_web/.

English

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a large-scale dataset with clean and cluttered images per scene remains lacking, limiting the development. To address this gap, we introduce DF3DV-1K, a large-scale real-world dataset comprising 1,048 scenes, each providing clean and cluttered image sets for benchmarking. In total, the dataset contains 89,924 images captured using consumer cameras to mimic casual capture, spanning 128 distractor types and 161 scene themes across indoor and outdoor environments. A curated subset of 41 scenes, DF3DV-41, is systematically designed to evaluate the robustness of distractor-free radiance field methods under challenging scenarios. Using DF3DV-1K, we benchmark nine recent distractor-free radiance field methods and 3D Gaussian Splatting, identifying the most robust methods and the most challenging scenarios. Beyond benchmarking, we demonstrate an application of DF3DV-1K by fine-tuning a diffusion-based 2D enhancer to improve radiance field methods, achieving average improvements of 0.96 dB PSNR and 0.057 LPIPS on the held-out set (e.g., DF3DV-41) and the On-the-go dataset. We hope DF3DV-1K facilitates the development of distractor-free vision and promotes progress beyond scene-specific approaches. The dataset and leaderboard are available at https://johnnylu305.github.io/df3dv1k_web/.