Domesticación del Modelo de Difusión Latente para la Restauración de Campos de Radiancia Neural
Taming Latent Diffusion Model for Neural Radiance Field Inpainting
April 15, 2024
Autores: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI
Resumen
Neural Radiance Field (NeRF) es una representación para la reconstrucción 3D a partir de imágenes multivista. A pesar de que algunos trabajos recientes han mostrado un éxito preliminar en la edición de un NeRF reconstruido con un prior de difusión, siguen teniendo dificultades para sintetizar geometrías razonables en regiones completamente descubiertas. Una razón principal es la alta diversidad de contenidos sintéticos generados por el modelo de difusión, lo que impide que el campo de radiancia converja hacia una geometría nítida y determinista. Además, la aplicación de modelos de difusión latente en datos reales a menudo produce un cambio textural incoherente con la condición de la imagen debido a errores de auto-codificación. Estos dos problemas se ven reforzados con el uso de pérdidas basadas en distancia de píxeles. Para abordar estos problemas, proponemos moderar la estocasticidad del modelo de difusión mediante personalización por escena y mitigar el cambio textural con entrenamiento adversarial enmascarado. Durante los análisis, también descubrimos que las pérdidas de píxeles y perceptuales comúnmente utilizadas son perjudiciales en la tarea de inpaint de NeRF. A través de experimentos rigurosos, nuestro marco de trabajo produce resultados de inpaint de NeRF de última generación en diversas escenas del mundo real. Página del proyecto: https://hubert0527.github.io/MALD-NeRF.
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from
multi-view images. Despite some recent work showing preliminary success in
editing a reconstructed NeRF with diffusion prior, they remain struggling to
synthesize reasonable geometry in completely uncovered regions. One major
reason is the high diversity of synthetic contents from the diffusion model,
which hinders the radiance field from converging to a crisp and deterministic
geometry. Moreover, applying latent diffusion models on real data often yields
a textural shift incoherent to the image condition due to auto-encoding errors.
These two problems are further reinforced with the use of pixel-distance
losses. To address these issues, we propose tempering the diffusion model's
stochasticity with per-scene customization and mitigating the textural shift
with masked adversarial training. During the analyses, we also found the
commonly used pixel and perceptual losses are harmful in the NeRF inpainting
task. Through rigorous experiments, our framework yields state-of-the-art NeRF
inpainting results on various real-world scenes. Project page:
https://hubert0527.github.io/MALD-NeRFSummary
AI-Generated Summary