DF3DV-1K : Un ensemble de données à grande échelle et un référentiel pour la synthèse de vues nouvelles sans distracteurs

Résumé

Les avancées dans les champs de radiance ont permis la synthèse photoréaliste de nouvelles vues. Dans plusieurs domaines, des jeux de données réels à grande échelle ont été développés pour soutenir une évaluation comparative exhaustive et favoriser le progrès au-delà des reconstructions spécifiques à une scène. Cependant, pour les champs de radiance sans distracteurs, il manque encore un jeu de données à grande échelle contenant des ensembles d’images propres et encombrés par scène, ce qui limite le développement. Pour combler cette lacune, nous présentons DF3DV-1K, un jeu de données réel à grande échelle comprenant 1 048 scènes, chacune fournissant des ensembles d’images propres et encombrés pour l’évaluation comparative. Au total, le jeu de données contient 89 924 images capturées avec des appareils grand public afin de simuler une prise de vue occasionnelle, couvrant 128 types de distracteurs et 161 thèmes de scènes dans des environnements intérieurs et extérieurs. Un sous-ensemble sélectionné de 41 scènes, DF3DV-41, est systématiquement conçu pour évaluer la robustesse des méthodes de champs de radiance sans distracteurs dans des scénarios difficiles. En utilisant DF3DV-1K, nous évaluons neuf méthodes récentes de champs de radiance sans distracteurs ainsi que le 3D Gaussian Splatting, identifiant les méthodes les plus robustes et les scénarios les plus difficiles. Au-delà de l’évaluation comparative, nous démontrons une application de DF3DV-1K en affinant un améliorateur 2D basé sur la diffusion pour améliorer les méthodes de champs de radiance, obtenant des améliorations moyennes de 0,96 dB en PSNR et de 0,057 en LPIPS sur l’ensemble de test (par exemple, DF3DV-41) et le jeu de données On-the-go. Nous espérons que DF3DV-1K facilitera le développement de la vision sans distracteurs et encouragera le progrès au-delà des approches spécifiques à une scène. Le jeu de données et le classement sont disponibles à l’adresse https://johnnylu305.github.io/df3dv1k_web/.

English

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a large-scale dataset with clean and cluttered images per scene remains lacking, limiting the development. To address this gap, we introduce DF3DV-1K, a large-scale real-world dataset comprising 1,048 scenes, each providing clean and cluttered image sets for benchmarking. In total, the dataset contains 89,924 images captured using consumer cameras to mimic casual capture, spanning 128 distractor types and 161 scene themes across indoor and outdoor environments. A curated subset of 41 scenes, DF3DV-41, is systematically designed to evaluate the robustness of distractor-free radiance field methods under challenging scenarios. Using DF3DV-1K, we benchmark nine recent distractor-free radiance field methods and 3D Gaussian Splatting, identifying the most robust methods and the most challenging scenarios. Beyond benchmarking, we demonstrate an application of DF3DV-1K by fine-tuning a diffusion-based 2D enhancer to improve radiance field methods, achieving average improvements of 0.96 dB PSNR and 0.057 LPIPS on the held-out set (e.g., DF3DV-41) and the On-the-go dataset. We hope DF3DV-1K facilitates the development of distractor-free vision and promotes progress beyond scene-specific approaches. The dataset and leaderboard are available at https://johnnylu305.github.io/df3dv1k_web/.