ChatPaper.aiChatPaper

Het temmen van latent diffusiemodellen voor neurale stralingsveld-inpainting

Taming Latent Diffusion Model for Neural Radiance Field Inpainting

April 15, 2024
Auteurs: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI

Samenvatting

Neural Radiance Field (NeRF) is een representatie voor 3D-reconstructie op basis van multi-view afbeeldingen. Ondanks enig recent werk dat voorlopig succes heeft laten zien bij het bewerken van een gereconstrueerde NeRF met een diffusieprior, blijven ze moeite hebben om redelijke geometrie te synthetiseren in volledig onbedekte regio's. Een belangrijke reden hiervoor is de hoge diversiteit van synthetische inhoud van het diffusiemodel, wat het stralingsveld belemmert om te convergeren naar een scherpe en deterministische geometrie. Bovendien leidt het toepassen van latente diffusiemodellen op echte data vaak tot een textuurverschuiving die niet coherent is met de beeldconditie vanwege auto-encoderingsfouten. Deze twee problemen worden verder versterkt door het gebruik van pixelafstandsverliezen. Om deze problemen aan te pakken, stellen we voor om de stochastiek van het diffusiemodel te temperen met per-scene-customisatie en de textuurverschuiving te verminderen met gemaskeerde adversariële training. Tijdens de analyses ontdekten we ook dat de veelgebruikte pixel- en perceptuele verliezen schadelijk zijn voor de NeRF-inpaintingtaak. Door middel van rigoureuze experimenten levert ons framework state-of-the-art NeRF-inpaintingresultaten op voor verschillende real-world scènes. Projectpagina: https://hubert0527.github.io/MALD-NeRF
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from multi-view images. Despite some recent work showing preliminary success in editing a reconstructed NeRF with diffusion prior, they remain struggling to synthesize reasonable geometry in completely uncovered regions. One major reason is the high diversity of synthetic contents from the diffusion model, which hinders the radiance field from converging to a crisp and deterministic geometry. Moreover, applying latent diffusion models on real data often yields a textural shift incoherent to the image condition due to auto-encoding errors. These two problems are further reinforced with the use of pixel-distance losses. To address these issues, we propose tempering the diffusion model's stochasticity with per-scene customization and mitigating the textural shift with masked adversarial training. During the analyses, we also found the commonly used pixel and perceptual losses are harmful in the NeRF inpainting task. Through rigorous experiments, our framework yields state-of-the-art NeRF inpainting results on various real-world scenes. Project page: https://hubert0527.github.io/MALD-NeRF
PDF70February 8, 2026