ZeroNVS: Síntese de Visão em 360 Graus sem Exemplos a partir de uma Única Imagem Real
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
October 27, 2023
Autores: Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
cs.AI
Resumo
Apresentamos o ZeroNVS, um modelo de difusão 3D para síntese de novas visões a partir de uma única imagem em cenas do mundo real. Enquanto os métodos existentes são projetados para objetos individuais com fundos mascarados, propomos novas técnicas para abordar os desafios introduzidos por cenas do mundo real com múltiplos objetos e fundos complexos. Especificamente, treinamos um prior generativo em uma mistura de fontes de dados que capturam cenas centradas em objetos, ambientes internos e externos. Para resolver problemas decorrentes da mistura de dados, como ambiguidade na escala de profundidade, propomos uma nova parametrização de condicionamento de câmera e um esquema de normalização. Além disso, observamos que a Amostragem por Destilação de Pontuação (SDS) tende a truncar a distribuição de fundos complexos durante a destilação de cenas de 360 graus, e propomos a "ancoragem SDS" para melhorar a diversidade das novas visões sintetizadas. Nosso modelo estabelece um novo estado da arte em LPIPS no conjunto de dados DTU na configuração zero-shot, superando até mesmo métodos treinados especificamente no DTU. Adaptamos ainda o desafiador conjunto de dados Mip-NeRF 360 como um novo benchmark para síntese de novas visões a partir de uma única imagem, e demonstramos um desempenho robusto nesse cenário. Nosso código e dados estão disponíveis em http://kylesargent.github.io/zeronvs/.
English
We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view
synthesis for in-the-wild scenes. While existing methods are designed for
single objects with masked backgrounds, we propose new techniques to address
challenges introduced by in-the-wild multi-object scenes with complex
backgrounds. Specifically, we train a generative prior on a mixture of data
sources that capture object-centric, indoor, and outdoor scenes. To address
issues from data mixture such as depth-scale ambiguity, we propose a novel
camera conditioning parameterization and normalization scheme. Further, we
observe that Score Distillation Sampling (SDS) tends to truncate the
distribution of complex backgrounds during distillation of 360-degree scenes,
and propose "SDS anchoring" to improve the diversity of synthesized novel
views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset
in the zero-shot setting, even outperforming methods specifically trained on
DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark
for single-image novel view synthesis, and demonstrate strong performance in
this setting. Our code and data are at http://kylesargent.github.io/zeronvs/