ZeroNVS: Sintesi di Viste a 360 Gradi Zero-Shot da una Singola Immagine Reale

Abstract

Introduciamo ZeroNVS, un modello di diffusione 3D-aware per la sintesi di nuove viste da singola immagine in scene del mondo reale. Mentre i metodi esistenti sono progettati per singoli oggetti con sfondi mascherati, proponiamo nuove tecniche per affrontare le sfide introdotte da scene multi-oggetto con sfondi complessi. Nello specifico, addestriamo un priore generativo su una miscela di fonti di dati che catturano scene centrate su oggetti, ambienti interni ed esterni. Per risolvere problemi derivanti dalla miscela di dati, come l'ambiguità della scala di profondità, proponiamo una nuova parametrizzazione e schema di normalizzazione per il condizionamento della telecamera. Inoltre, osserviamo che il Score Distillation Sampling (SDS) tende a troncare la distribuzione di sfondi complessi durante la distillazione di scene a 360 gradi, e proponiamo "SDS anchoring" per migliorare la diversità delle nuove viste sintetizzate. Il nostro modello stabilisce un nuovo stato dell'arte in LPIPS sul dataset DTU in uno scenario zero-shot, superando persino metodi addestrati specificamente su DTU. Adattiamo inoltre il complesso dataset Mip-NeRF 360 come nuovo benchmark per la sintesi di nuove viste da singola immagine, dimostrando prestazioni solide in questo contesto. Il nostro codice e i dati sono disponibili su http://kylesargent.github.io/zeronvs/

English

We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view synthesis for in-the-wild scenes. While existing methods are designed for single objects with masked backgrounds, we propose new techniques to address challenges introduced by in-the-wild multi-object scenes with complex backgrounds. Specifically, we train a generative prior on a mixture of data sources that capture object-centric, indoor, and outdoor scenes. To address issues from data mixture such as depth-scale ambiguity, we propose a novel camera conditioning parameterization and normalization scheme. Further, we observe that Score Distillation Sampling (SDS) tends to truncate the distribution of complex backgrounds during distillation of 360-degree scenes, and propose "SDS anchoring" to improve the diversity of synthesized novel views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset in the zero-shot setting, even outperforming methods specifically trained on DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark for single-image novel view synthesis, and demonstrate strong performance in this setting. Our code and data are at http://kylesargent.github.io/zeronvs/

ZeroNVS: Sintesi di Viste a 360 Gradi Zero-Shot da una Singola Immagine Reale

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

Abstract

Support