DF3DV-1K: Een grootschalige dataset en benchmark voor afleidingsvrije nieuwe-aanzichtsynthese

Samenvatting

Vooruitgang in stralingsvelden heeft fotorealistische nieuwe zichtweergave mogelijk gemaakt. Op verschillende domeinen zijn grootschalige real-world datasets ontwikkeld om uitgebreide benchmarking te ondersteunen en vooruitgang voorbij scènespecifieke reconstructie te bevorderen. Echter, voor afleidingsvrije stralingsvelden ontbreekt nog steeds een grootschalige dataset met schone en rommelige beelden per scène, wat de ontwikkeling beperkt. Om deze leemte op te vullen, introduceren we DF3DV-1K, een grootschalige real-world dataset bestaande uit 1.048 scènes, die elk schone en rommelige beeldensets bieden voor benchmarking. In totaal bevat de dataset 89.924 beelden, gemaakt met consumentencamera's om toevallige opnames na te bootsen, verspreid over 128 afleidingstypen en 161 scènethema's in binnen- en buitenomgevingen. Een samengestelde subset van 41 scènes, DF3DV-41, is systematisch ontworpen om de robuustheid van afleidingsvrije stralingsveldmethoden in uitdagende scenario's te evalueren. Met DF3DV-1K benchmarken we negen recente afleidingsvrije stralingsveldmethoden en 3D Gaussian Splatting, waarbij we de meest robuuste methoden en de meest uitdagende scenario's identificeren. Naast benchmarking demonstreren we een toepassing van DF3DV-1K door een diffusiegebaseerde 2D-versterker fijn te regelen om stralingsveldmethoden te verbeteren, met gemiddelde verbeteringen van 0,96 dB PSNR en 0,057 LPIPS op de testset (bijv. DF3DV-41) en de On-the-go dataset. We hopen dat DF3DV-1K de ontwikkeling van afleidingsvrij zicht vergemakkelijkt en vooruitgang voorbij scènespecifieke benaderingen bevordert. De dataset en het leaderboard zijn beschikbaar op https://johnnylu305.github.io/df3dv1k_web/.

English

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a large-scale dataset with clean and cluttered images per scene remains lacking, limiting the development. To address this gap, we introduce DF3DV-1K, a large-scale real-world dataset comprising 1,048 scenes, each providing clean and cluttered image sets for benchmarking. In total, the dataset contains 89,924 images captured using consumer cameras to mimic casual capture, spanning 128 distractor types and 161 scene themes across indoor and outdoor environments. A curated subset of 41 scenes, DF3DV-41, is systematically designed to evaluate the robustness of distractor-free radiance field methods under challenging scenarios. Using DF3DV-1K, we benchmark nine recent distractor-free radiance field methods and 3D Gaussian Splatting, identifying the most robust methods and the most challenging scenarios. Beyond benchmarking, we demonstrate an application of DF3DV-1K by fine-tuning a diffusion-based 2D enhancer to improve radiance field methods, achieving average improvements of 0.96 dB PSNR and 0.057 LPIPS on the held-out set (e.g., DF3DV-41) and the On-the-go dataset. We hope DF3DV-1K facilitates the development of distractor-free vision and promotes progress beyond scene-specific approaches. The dataset and leaderboard are available at https://johnnylu305.github.io/df3dv1k_web/.