ChatPaper.aiChatPaper

ZeroNVS: Zero-Shot 360-Graden Weergavesynthese vanuit een Enkel Reëel Beeld

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

October 27, 2023
Auteurs: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI

Samenvatting

We introduceren een 3D-bewust diffusiemodel, ZeroNVS, voor de synthese van nieuwe aanzichten vanuit één afbeelding voor scènes in de echte wereld. Terwijl bestaande methoden zijn ontworpen voor individuele objecten met gemaskeerde achtergronden, stellen we nieuwe technieken voor om de uitdagingen aan te pakken die worden geïntroduceerd door scènes in de echte wereld met meerdere objecten en complexe achtergronden. Specifiek trainen we een generatief prior op een mix van databronnen die objectgerichte, binnen- en buitenscènes vastleggen. Om problemen door de datamix, zoals diepte-schaalambiguïteit, aan te pakken, introduceren we een nieuwe cameraconditioneringsparameterisatie en normalisatieschema. Verder observeren we dat Score Distillation Sampling (SDS) de neiging heeft om de verdeling van complexe achtergronden af te kappen tijdens de distillatie van 360-gradenscènes, en stellen we "SDS anchoring" voor om de diversiteit van gesynthetiseerde nieuwe aanzichten te verbeteren. Ons model behaalt een nieuwe state-of-the-art resultaat in LPIPS op de DTU-dataset in de zero-shot setting, en overtreft zelfs methoden die specifiek op DTU zijn getraind. We passen verder de uitdagende Mip-NeRF 360-dataset aan als een nieuwe benchmark voor de synthese van nieuwe aanzichten vanuit één afbeelding, en demonstreren sterke prestaties in deze setting. Onze code en data zijn beschikbaar op http://kylesargent.github.io/zeronvs/.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view synthesis for in-the-wild scenes. While existing methods are designed for single objects with masked backgrounds, we propose new techniques to address challenges introduced by in-the-wild multi-object scenes with complex backgrounds. Specifically, we train a generative prior on a mixture of data sources that capture object-centric, indoor, and outdoor scenes. To address issues from data mixture such as depth-scale ambiguity, we propose a novel camera conditioning parameterization and normalization scheme. Further, we observe that Score Distillation Sampling (SDS) tends to truncate the distribution of complex backgrounds during distillation of 360-degree scenes, and propose "SDS anchoring" to improve the diversity of synthesized novel views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset in the zero-shot setting, even outperforming methods specifically trained on DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark for single-image novel view synthesis, and demonstrate strong performance in this setting. Our code and data are at http://kylesargent.github.io/zeronvs/
PDF81February 8, 2026