ZeroNVS: Sintesi di Viste a 360 Gradi Zero-Shot da una Singola Immagine Reale
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
October 27, 2023
Autori: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI
Abstract
Introduciamo ZeroNVS, un modello di diffusione 3D-aware per la sintesi di nuove viste da singola immagine in scene del mondo reale. Mentre i metodi esistenti sono progettati per singoli oggetti con sfondi mascherati, proponiamo nuove tecniche per affrontare le sfide introdotte da scene multi-oggetto con sfondi complessi. Nello specifico, addestriamo un priore generativo su una miscela di fonti di dati che catturano scene centrate su oggetti, ambienti interni ed esterni. Per risolvere problemi derivanti dalla miscela di dati, come l'ambiguità della scala di profondità, proponiamo una nuova parametrizzazione e schema di normalizzazione per il condizionamento della telecamera. Inoltre, osserviamo che il Score Distillation Sampling (SDS) tende a troncare la distribuzione di sfondi complessi durante la distillazione di scene a 360 gradi, e proponiamo "SDS anchoring" per migliorare la diversità delle nuove viste sintetizzate. Il nostro modello stabilisce un nuovo stato dell'arte in LPIPS sul dataset DTU in uno scenario zero-shot, superando persino metodi addestrati specificamente su DTU. Adattiamo inoltre il complesso dataset Mip-NeRF 360 come nuovo benchmark per la sintesi di nuove viste da singola immagine, dimostrando prestazioni solide in questo contesto. Il nostro codice e i dati sono disponibili su http://kylesargent.github.io/zeronvs/
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/