Die Bändigung des Latent Diffusion Modells für das Ausfüllen von Neuronalen Strahlungsfeldern.
Taming Latent Diffusion Model for Neural Radiance Field Inpainting
April 15, 2024
Autoren: Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng
cs.AI
Zusammenfassung
Neural Radiance Field (NeRF) ist eine Darstellung für die 3D-Rekonstruktion aus multiplen Ansichten. Obwohl einige aktuelle Arbeiten vorläufigen Erfolg bei der Bearbeitung eines rekonstruierten NeRF mit Diffusionsprior gezeigt haben, haben sie weiterhin Schwierigkeiten, eine plausible Geometrie in vollständig unbedeckten Regionen zu synthetisieren. Ein Hauptgrund hierfür ist die hohe Vielfalt an synthetischen Inhalten aus dem Diffusionsmodell, die die Radiance-Field daran hindert, zu einer klaren und deterministischen Geometrie zu konvergieren. Darüber hinaus führt die Anwendung von latenten Diffusionsmodellen auf echten Daten oft zu einer texturalen Verschiebung, die inkohärent zur Bildbedingung ist, aufgrund von Fehler bei der Auto-Codierung. Diese beiden Probleme werden durch die Verwendung von Pixel-Abstandsverlusten weiter verstärkt. Um diese Probleme anzugehen, schlagen wir vor, die Stochastizität des Diffusionsmodells durch eine an die Szene angepasste Temperierung zu mildern und die texturale Verschiebung durch maskiertes adversariales Training zu reduzieren. Während der Analysen stellten wir außerdem fest, dass die häufig verwendeten Pixel- und perzeptuellen Verluste bei der NeRF-Inpainting-Aufgabe schädlich sind. Durch rigorose Experimente liefert unser Framework erstklassige NeRF-Inpainting-Ergebnisse in verschiedenen realen Szenen. Projektseite: https://hubert0527.github.io/MALD-NeRF
English
Neural Radiance Field (NeRF) is a representation for 3D reconstruction from
multi-view images. Despite some recent work showing preliminary success in
editing a reconstructed NeRF with diffusion prior, they remain struggling to
synthesize reasonable geometry in completely uncovered regions. One major
reason is the high diversity of synthetic contents from the diffusion model,
which hinders the radiance field from converging to a crisp and deterministic
geometry. Moreover, applying latent diffusion models on real data often yields
a textural shift incoherent to the image condition due to auto-encoding errors.
These two problems are further reinforced with the use of pixel-distance
losses. To address these issues, we propose tempering the diffusion model's
stochasticity with per-scene customization and mitigating the textural shift
with masked adversarial training. During the analyses, we also found the
commonly used pixel and perceptual losses are harmful in the NeRF inpainting
task. Through rigorous experiments, our framework yields state-of-the-art NeRF
inpainting results on various real-world scenes. Project page:
https://hubert0527.github.io/MALD-NeRFSummary
AI-Generated Summary