ChatPaper.aiChatPaper

ZeroNVS : Synthèse de vues à 360 degrés en zero-shot à partir d'une seule image réelle

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

October 27, 2023
papers.authors: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI

papers.abstract

Nous présentons ZeroNVS, un modèle de diffusion 3D pour la synthèse de nouvelles vues à partir d'une seule image, adapté aux scènes en conditions réelles. Alors que les méthodes existantes sont conçues pour des objets isolés sur fonds masqués, nous proposons de nouvelles techniques pour relever les défis posés par les scènes complexes en extérieur ou en intérieur comportant plusieurs objets. Plus précisément, nous entraînons un a priori génératif sur un mélange de sources de données capturant des scènes centrées sur des objets, des intérieurs et des extérieurs. Pour résoudre les problèmes liés au mélange de données, tels que l'ambiguïté d'échelle de profondeur, nous proposons une nouvelle paramétrisation et un schéma de normalisation pour le conditionnement de la caméra. De plus, nous observons que l'échantillonnage par distillation de score (SDS) a tendance à tronquer la distribution des arrière-plans complexes lors de la distillation de scènes à 360 degrés, et nous proposons "l'ancrage SDS" pour améliorer la diversité des nouvelles vues synthétisées. Notre modèle établit un nouveau record de pointe en LPIPS sur le jeu de données DTU en configuration zero-shot, surpassant même les méthodes spécifiquement entraînées sur DTU. Nous adaptons également le jeu de données exigeant Mip-NeRF 360 comme nouveau benchmark pour la synthèse de nouvelles vues à partir d'une seule image, et démontrons des performances solides dans ce contexte. Notre code et nos données sont disponibles à l'adresse http://kylesargent.github.io/zeronvs/.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view synthesis for in-the-wild scenes. While existing methods are designed for single objects with masked backgrounds, we propose new techniques to address challenges introduced by in-the-wild multi-object scenes with complex backgrounds. Specifically, we train a generative prior on a mixture of data sources that capture object-centric, indoor, and outdoor scenes. To address issues from data mixture such as depth-scale ambiguity, we propose a novel camera conditioning parameterization and normalization scheme. Further, we observe that Score Distillation Sampling (SDS) tends to truncate the distribution of complex backgrounds during distillation of 360-degree scenes, and propose "SDS anchoring" to improve the diversity of synthesized novel views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset in the zero-shot setting, even outperforming methods specifically trained on DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark for single-image novel view synthesis, and demonstrate strong performance in this setting. Our code and data are at http://kylesargent.github.io/zeronvs/
PDF81December 15, 2024