ChatPaper.aiChatPaper

Domestication du Modèle de Diffusion Latente pour le Complètement de Champs de Radiance Neuronaux

Taming Latent Diffusion Model for Neural Radiance Field Inpainting

April 15, 2024
Auteurs: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI

Résumé

Le Neural Radiance Field (NeRF) est une représentation pour la reconstruction 3D à partir d'images multivues. Bien que certains travaux récents aient montré un succès préliminaire dans l'édition d'un NeRF reconstruit avec un prior de diffusion, ils continuent de rencontrer des difficultés à synthétiser une géométrie raisonnable dans les régions complètement non couvertes. Une raison majeure est la grande diversité des contenus synthétiques générés par le modèle de diffusion, ce qui empêche le champ de radiance de converger vers une géométrie nette et déterministe. De plus, l'application de modèles de diffusion latente sur des données réelles entraîne souvent un décalage textuel incohérent avec la condition de l'image en raison d'erreurs d'auto-encodage. Ces deux problèmes sont encore renforcés par l'utilisation de pertes basées sur la distance des pixels. Pour résoudre ces problèmes, nous proposons de tempérer la stochasticité du modèle de diffusion par une personnalisation par scène et d'atténuer le décalage textuel par un entraînement adversarial masqué. Au cours des analyses, nous avons également constaté que les pertes de pixels et perceptuelles couramment utilisées sont néfastes pour la tâche de réparation de NeRF. Grâce à des expériences rigoureuses, notre cadre produit des résultats de réparation de NeRF de pointe sur diverses scènes du monde réel. Page du projet : https://hubert0527.github.io/MALD-NeRF
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from multi-view images. Despite some recent work showing preliminary success in editing a reconstructed NeRF with diffusion prior, they remain struggling to synthesize reasonable geometry in completely uncovered regions. One major reason is the high diversity of synthetic contents from the diffusion model, which hinders the radiance field from converging to a crisp and deterministic geometry. Moreover, applying latent diffusion models on real data often yields a textural shift incoherent to the image condition due to auto-encoding errors. These two problems are further reinforced with the use of pixel-distance losses. To address these issues, we propose tempering the diffusion model's stochasticity with per-scene customization and mitigating the textural shift with masked adversarial training. During the analyses, we also found the commonly used pixel and perceptual losses are harmful in the NeRF inpainting task. Through rigorous experiments, our framework yields state-of-the-art NeRF inpainting results on various real-world scenes. Project page: https://hubert0527.github.io/MALD-NeRF

Summary

AI-Generated Summary

PDF70December 15, 2024