ZeroNVS: Síntesis de Vistas de 360 Grados en Modo Zero-Shot a partir de una Única Imagen Real
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
October 27, 2023
Autores: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI
Resumen
Presentamos ZeroNVS, un modelo de difusión 3D para la síntesis de nuevas vistas a partir de una sola imagen en escenas del mundo real. Mientras que los métodos existentes están diseñados para objetos individuales con fondos enmascarados, proponemos nuevas técnicas para abordar los desafíos que presentan las escenas del mundo real con múltiples objetos y fondos complejos. Específicamente, entrenamos un prior generativo en una mezcla de fuentes de datos que capturan escenas centradas en objetos, interiores y exteriores. Para abordar problemas derivados de la mezcla de datos, como la ambigüedad en la escala de profundidad, proponemos una nueva parametrización y esquema de normalización para el condicionamiento de la cámara. Además, observamos que el Muestreo por Destilación de Puntuaciones (SDS) tiende a truncar la distribución de fondos complejos durante la destilación de escenas de 360 grados, y proponemos el "anclaje SDS" para mejorar la diversidad de las nuevas vistas sintetizadas. Nuestro modelo establece un nuevo estado del arte en LPIPS en el conjunto de datos DTU en un escenario de cero disparos, superando incluso a métodos entrenados específicamente en DTU. También adaptamos el desafiante conjunto de datos Mip-NeRF 360 como un nuevo punto de referencia para la síntesis de nuevas vistas a partir de una sola imagen, y demostramos un rendimiento sólido en este escenario. Nuestro código y datos están disponibles en http://kylesargent.github.io/zeronvs/.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/