ChatPaper.aiChatPaper

ZeroNVS: Null-Shot 360-Grad-Ansichtssynthese aus einem einzelnen realen Bild

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

October 27, 2023
papers.authors: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI

papers.abstract

Wir stellen ein 3D-bewusstes Diffusionsmodell, ZeroNVS, für die Synthese neuer Ansichten aus Einzelbildern in realen Szenen vor. Während bestehende Methoden für einzelne Objekte mit maskierten Hintergründen entwickelt wurden, schlagen wir neue Techniken vor, um die Herausforderungen zu bewältigen, die durch reale Szenen mit mehreren Objekten und komplexen Hintergründen entstehen. Insbesondere trainieren wir ein generatives Prior auf einer Mischung von Datenquellen, die objektzentrierte, Innenraum- und Außenraumszenen erfassen. Um Probleme wie die Mehrdeutigkeit der Tiefenskala, die durch die Datenmischung entstehen, zu adressieren, schlagen wir eine neuartige Kamerakonditionierungsparametrisierung und Normalisierungsschema vor. Weiterhin beobachten wir, dass Score Distillation Sampling (SDS) dazu neigt, die Verteilung komplexer Hintergründe während der Destillation von 360-Grad-Szenen zu beschneiden, und schlagen „SDS Anchoring“ vor, um die Vielfalt der synthetisierten neuen Ansichten zu verbessern. Unser Modell erzielt einen neuen State-of-the-Art-Wert in LPIPS auf dem DTU-Datensatz im Zero-Shot-Setting und übertrifft sogar Methoden, die speziell auf DTU trainiert wurden. Wir passen außerdem den anspruchsvollen Mip-NeRF 360-Datensatz als neuen Benchmark für die Synthese neuer Ansichten aus Einzelbildern an und demonstrieren starke Leistungen in diesem Setting. Unser Code und unsere Daten sind unter http://kylesargent.github.io/zeronvs/ verfügbar.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view synthesis for in-the-wild scenes. While existing methods are designed for single objects with masked backgrounds, we propose new techniques to address challenges introduced by in-the-wild multi-object scenes with complex backgrounds. Specifically, we train a generative prior on a mixture of data sources that capture object-centric, indoor, and outdoor scenes. To address issues from data mixture such as depth-scale ambiguity, we propose a novel camera conditioning parameterization and normalization scheme. Further, we observe that Score Distillation Sampling (SDS) tends to truncate the distribution of complex backgrounds during distillation of 360-degree scenes, and propose "SDS anchoring" to improve the diversity of synthesized novel views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset in the zero-shot setting, even outperforming methods specifically trained on DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark for single-image novel view synthesis, and demonstrate strong performance in this setting. Our code and data are at http://kylesargent.github.io/zeronvs/
PDF81December 15, 2024