ZeroNVS: Null-Shot 360-Grad-Ansichtssynthese aus einem einzelnen realen Bild
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
October 27, 2023
papers.authors: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI
papers.abstract
Wir stellen ein 3D-bewusstes Diffusionsmodell, ZeroNVS, für die Synthese neuer Ansichten aus Einzelbildern in realen Szenen vor. Während bestehende Methoden für einzelne Objekte mit maskierten Hintergründen entwickelt wurden, schlagen wir neue Techniken vor, um die Herausforderungen zu bewältigen, die durch reale Szenen mit mehreren Objekten und komplexen Hintergründen entstehen. Insbesondere trainieren wir ein generatives Prior auf einer Mischung von Datenquellen, die objektzentrierte, Innenraum- und Außenraumszenen erfassen. Um Probleme wie die Mehrdeutigkeit der Tiefenskala, die durch die Datenmischung entstehen, zu adressieren, schlagen wir eine neuartige Kamerakonditionierungsparametrisierung und Normalisierungsschema vor. Weiterhin beobachten wir, dass Score Distillation Sampling (SDS) dazu neigt, die Verteilung komplexer Hintergründe während der Destillation von 360-Grad-Szenen zu beschneiden, und schlagen „SDS Anchoring“ vor, um die Vielfalt der synthetisierten neuen Ansichten zu verbessern. Unser Modell erzielt einen neuen State-of-the-Art-Wert in LPIPS auf dem DTU-Datensatz im Zero-Shot-Setting und übertrifft sogar Methoden, die speziell auf DTU trainiert wurden. Wir passen außerdem den anspruchsvollen Mip-NeRF 360-Datensatz als neuen Benchmark für die Synthese neuer Ansichten aus Einzelbildern an und demonstrieren starke Leistungen in diesem Setting. Unser Code und unsere Daten sind unter http://kylesargent.github.io/zeronvs/ verfügbar.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/