Het temmen van latent diffusiemodellen voor neurale stralingsveld-inpainting
Taming Latent Diffusion Model for Neural Radiance Field Inpainting
April 15, 2024
Auteurs: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI
Samenvatting
Neural Radiance Field (NeRF) is een representatie voor 3D-reconstructie op basis van multi-view afbeeldingen. Ondanks enig recent werk dat voorlopig succes heeft laten zien bij het bewerken van een gereconstrueerde NeRF met een diffusieprior, blijven ze moeite hebben om redelijke geometrie te synthetiseren in volledig onbedekte regio's. Een belangrijke reden hiervoor is de hoge diversiteit van synthetische inhoud van het diffusiemodel, wat het stralingsveld belemmert om te convergeren naar een scherpe en deterministische geometrie. Bovendien leidt het toepassen van latente diffusiemodellen op echte data vaak tot een textuurverschuiving die niet coherent is met de beeldconditie vanwege auto-encoderingsfouten. Deze twee problemen worden verder versterkt door het gebruik van pixelafstandsverliezen. Om deze problemen aan te pakken, stellen we voor om de stochastiek van het diffusiemodel te temperen met per-scene-customisatie en de textuurverschuiving te verminderen met gemaskeerde adversariële training. Tijdens de analyses ontdekten we ook dat de veelgebruikte pixel- en perceptuele verliezen schadelijk zijn voor de NeRF-inpaintingtaak. Door middel van rigoureuze experimenten levert ons framework state-of-the-art NeRF-inpaintingresultaten op voor verschillende real-world scènes. Projectpagina: https://hubert0527.github.io/MALD-NeRF
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from
multi-view images. Despite some recent work showing preliminary success in
editing a reconstructed NeRF with diffusion prior, they remain struggling to
synthesize reasonable geometry in completely uncovered regions. One major
reason is the high diversity of synthetic contents from the diffusion model,
which hinders the radiance field from converging to a crisp and deterministic
geometry. Moreover, applying latent diffusion models on real data often yields
a textural shift incoherent to the image condition due to auto-encoding errors.
These two problems are further reinforced with the use of pixel-distance
losses. To address these issues, we propose tempering the diffusion model's
stochasticity with per-scene customization and mitigating the textural shift
with masked adversarial training. During the analyses, we also found the
commonly used pixel and perceptual losses are harmful in the NeRF inpainting
task. Through rigorous experiments, our framework yields state-of-the-art NeRF
inpainting results on various real-world scenes. Project page:
https://hubert0527.github.io/MALD-NeRF