ZeroNVS: Síntesis de Vistas de 360 Grados en Modo Zero-Shot a partir de una Única Imagen Real

Resumen

Presentamos ZeroNVS, un modelo de difusión 3D para la síntesis de nuevas vistas a partir de una sola imagen en escenas del mundo real. Mientras que los métodos existentes están diseñados para objetos individuales con fondos enmascarados, proponemos nuevas técnicas para abordar los desafíos que presentan las escenas del mundo real con múltiples objetos y fondos complejos. Específicamente, entrenamos un prior generativo en una mezcla de fuentes de datos que capturan escenas centradas en objetos, interiores y exteriores. Para abordar problemas derivados de la mezcla de datos, como la ambigüedad en la escala de profundidad, proponemos una nueva parametrización y esquema de normalización para el condicionamiento de la cámara. Además, observamos que el Muestreo por Destilación de Puntuaciones (SDS) tiende a truncar la distribución de fondos complejos durante la destilación de escenas de 360 grados, y proponemos el "anclaje SDS" para mejorar la diversidad de las nuevas vistas sintetizadas. Nuestro modelo establece un nuevo estado del arte en LPIPS en el conjunto de datos DTU en un escenario de cero disparos, superando incluso a métodos entrenados específicamente en DTU. También adaptamos el desafiante conjunto de datos Mip-NeRF 360 como un nuevo punto de referencia para la síntesis de nuevas vistas a partir de una sola imagen, y demostramos un rendimiento sólido en este escenario. Nuestro código y datos están disponibles en http://kylesargent.github.io/zeronvs/.

English

We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view synthesis for in-the-wild scenes. While existing methods are designed for single objects with masked backgrounds, we propose new techniques to address challenges introduced by in-the-wild multi-object scenes with complex backgrounds. Specifically, we train a generative prior on a mixture of data sources that capture object-centric, indoor, and outdoor scenes. To address issues from data mixture such as depth-scale ambiguity, we propose a novel camera conditioning parameterization and normalization scheme. Further, we observe that Score Distillation Sampling (SDS) tends to truncate the distribution of complex backgrounds during distillation of 360-degree scenes, and propose "SDS anchoring" to improve the diversity of synthesized novel views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset in the zero-shot setting, even outperforming methods specifically trained on DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark for single-image novel view synthesis, and demonstrate strong performance in this setting. Our code and data are at http://kylesargent.github.io/zeronvs/

ZeroNVS: Síntesis de Vistas de 360 Grados en Modo Zero-Shot a partir de una Única Imagen Real

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

Resumen

Support