DF3DV-1K: Крупномасштабный набор данных и эталон для синтеза новых видов без отвлекающих объектов

Аннотация

Достижения в области полей излучения позволили реализовать фотореалистичный синтез новых ракурсов. В ряде областей были разработаны крупномасштабные наборы данных на основе реальных сцен, поддерживающие комплексное эталонное тестирование и способствующие прогрессу за рамки реконструкции, специфичной для конкретной сцены. Однако для полей излучения без помех до сих пор отсутствует крупномасштабный набор данных, содержащий как чистые, так и загроможденные изображения для каждой сцены, что ограничивает развитие этого направления. Для устранения этого пробела мы представляем DF3DV-1K — крупномасштабный набор реальных данных, включающий 1 048 сцен, каждая из которых предоставляет наборы чистых и загроможденных изображений для эталонного тестирования. В общей сложности набор данных содержит 89 924 изображения, полученные с помощью бытовых камер для имитации любительской съёмки, и охватывает 128 типов помех и 161 тематику сцен в условиях помещений и на открытом воздухе. Подмножество из 41 тщательно отобранной сцены, DF3DV-41, систематически спроектировано для оценки устойчивости методов построения полей излучения без помех в сложных сценариях. Используя DF3DV-1K, мы проводим эталонное тестирование девяти современных методов построения полей излучения без помех и метода 3D Gaussian Splatting, выявляя наиболее устойчивые методы и наиболее сложные сценарии. Помимо эталонного тестирования, мы демонстрируем применение DF3DV-1K: тонкая настройка диффузионного 2D-улучшателя для совершенствования методов полей излучения позволяет добиться среднего улучшения PSNR на 0,96 дБ и LPIPS на 0,057 на отложенном наборе (например, DF3DV-41) и наборе On-the-go. Мы надеемся, что DF3DV-1K будет способствовать развитию компьютерного зрения без помех и стимулировать прогресс за рамки подходов, специфичных для отдельных сцен. Набор данных и таблица лидеров доступны по адресу https://johnnylu305.github.io/df3dv1k_web/.

English

Advances in radiance fields have enabled photorealistic novel view synthesis. In several domains, large-scale real-world datasets have been developed to support comprehensive benchmarking and to facilitate progress beyond scene-specific reconstruction. However, for distractor-free radiance fields, a large-scale dataset with clean and cluttered images per scene remains lacking, limiting the development. To address this gap, we introduce DF3DV-1K, a large-scale real-world dataset comprising 1,048 scenes, each providing clean and cluttered image sets for benchmarking. In total, the dataset contains 89,924 images captured using consumer cameras to mimic casual capture, spanning 128 distractor types and 161 scene themes across indoor and outdoor environments. A curated subset of 41 scenes, DF3DV-41, is systematically designed to evaluate the robustness of distractor-free radiance field methods under challenging scenarios. Using DF3DV-1K, we benchmark nine recent distractor-free radiance field methods and 3D Gaussian Splatting, identifying the most robust methods and the most challenging scenarios. Beyond benchmarking, we demonstrate an application of DF3DV-1K by fine-tuning a diffusion-based 2D enhancer to improve radiance field methods, achieving average improvements of 0.96 dB PSNR and 0.057 LPIPS on the held-out set (e.g., DF3DV-41) and the On-the-go dataset. We hope DF3DV-1K facilitates the development of distractor-free vision and promotes progress beyond scene-specific approaches. The dataset and leaderboard are available at https://johnnylu305.github.io/df3dv1k_web/.