ZeroNVS: Zero-Shot 360-Graden Weergavesynthese vanuit een Enkel Reëel Beeld
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
October 27, 2023
Auteurs: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI
Samenvatting
We introduceren een 3D-bewust diffusiemodel, ZeroNVS, voor de synthese van nieuwe aanzichten vanuit één afbeelding voor scènes in de echte wereld. Terwijl bestaande methoden zijn ontworpen voor individuele objecten met gemaskeerde achtergronden, stellen we nieuwe technieken voor om de uitdagingen aan te pakken die worden geïntroduceerd door scènes in de echte wereld met meerdere objecten en complexe achtergronden. Specifiek trainen we een generatief prior op een mix van databronnen die objectgerichte, binnen- en buitenscènes vastleggen. Om problemen door de datamix, zoals diepte-schaalambiguïteit, aan te pakken, introduceren we een nieuwe cameraconditioneringsparameterisatie en normalisatieschema. Verder observeren we dat Score Distillation Sampling (SDS) de neiging heeft om de verdeling van complexe achtergronden af te kappen tijdens de distillatie van 360-gradenscènes, en stellen we "SDS anchoring" voor om de diversiteit van gesynthetiseerde nieuwe aanzichten te verbeteren. Ons model behaalt een nieuwe state-of-the-art resultaat in LPIPS op de DTU-dataset in de zero-shot setting, en overtreft zelfs methoden die specifiek op DTU zijn getraind. We passen verder de uitdagende Mip-NeRF 360-dataset aan als een nieuwe benchmark voor de synthese van nieuwe aanzichten vanuit één afbeelding, en demonstreren sterke prestaties in deze setting. Onze code en data zijn beschikbaar op http://kylesargent.github.io/zeronvs/.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/