Domando o Modelo de Difusão Latente para Preenchimento de Campos de Radiação Neural
Taming Latent Diffusion Model for Neural Radiance Field Inpainting
April 15, 2024
Autores: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI
Resumo
Neural Radiance Field (NeRF) é uma representação para reconstrução 3D a partir de imagens de múltiplas perspectivas. Apesar de alguns trabalhos recentes mostrarem sucesso preliminar na edição de um NeRF reconstruído com prior de difusão, eles ainda enfrentam dificuldades para sintetizar geometrias razoáveis em regiões completamente descobertas. Uma das principais razões é a alta diversidade de conteúdos sintéticos gerados pelo modelo de difusão, o que impede o campo de radiação de convergir para uma geometria nítida e determinística. Além disso, a aplicação de modelos de difusão latente em dados reais frequentemente resulta em uma mudança textural incoerente com a condição da imagem devido a erros de auto-codificação. Esses dois problemas são ainda mais reforçados com o uso de perdas baseadas em distância de pixels. Para abordar essas questões, propomos temperar a estocasticidade do modelo de difusão com personalização por cena e mitigar a mudança textural com treinamento adversário mascarado. Durante as análises, também descobrimos que as perdas de pixel e perceptual comumente usadas são prejudiciais na tarefa de preenchimento de NeRF. Por meio de experimentos rigorosos, nosso framework produz resultados de preenchimento de NeRF de última geração em diversas cenas do mundo real. Página do projeto: https://hubert0527.github.io/MALD-NeRF
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from
multi-view images. Despite some recent work showing preliminary success in
editing a reconstructed NeRF with diffusion prior, they remain struggling to
synthesize reasonable geometry in completely uncovered regions. One major
reason is the high diversity of synthetic contents from the diffusion model,
which hinders the radiance field from converging to a crisp and deterministic
geometry. Moreover, applying latent diffusion models on real data often yields
a textural shift incoherent to the image condition due to auto-encoding errors.
These two problems are further reinforced with the use of pixel-distance
losses. To address these issues, we propose tempering the diffusion model's
stochasticity with per-scene customization and mitigating the textural shift
with masked adversarial training. During the analyses, we also found the
commonly used pixel and perceptual losses are harmful in the NeRF inpainting
task. Through rigorous experiments, our framework yields state-of-the-art NeRF
inpainting results on various real-world scenes. Project page:
https://hubert0527.github.io/MALD-NeRF