Domare il Modello di Diffusione Latente per il Ritocco del Campo di Radianza Neurale

Abstract

Il Neural Radiance Field (NeRF) è una rappresentazione per la ricostruzione 3D a partire da immagini multi-vista. Nonostante alcuni recenti lavori abbiano mostrato un successo preliminare nella modifica di un NeRF ricostruito utilizzando un modello di diffusione, essi continuano a incontrare difficoltà nel sintetizzare una geometria ragionevole nelle regioni completamente scoperte. Una delle principali ragioni è l'elevata diversità dei contenuti sintetici generati dal modello di diffusione, che impedisce al campo di radianza di convergere verso una geometria nitida e deterministica. Inoltre, l'applicazione di modelli di diffusione latente su dati reali spesso produce uno spostamento testurale incoerente rispetto alla condizione dell'immagine, a causa di errori di auto-codifica. Questi due problemi sono ulteriormente accentuati dall'uso di perdite basate sulla distanza dei pixel. Per affrontare queste problematiche, proponiamo di temperare la stocasticità del modello di diffusione con una personalizzazione per scena e di mitigare lo spostamento testurale attraverso un addestramento avversario mascherato. Durante le analisi, abbiamo anche riscontrato che le perdite basate sui pixel e quelle percettive, comunemente utilizzate, sono dannose nel compito di inpainting del NeRF. Attraverso esperimenti rigorosi, il nostro framework produce risultati all'avanguardia nell'inpainting del NeRF su varie scene del mondo reale. Pagina del progetto: https://hubert0527.github.io/MALD-NeRF

English

Neural Radiance Field (NeRF) is a representation for 3D reconstruction from multi-view images. Despite some recent work showing preliminary success in editing a reconstructed NeRF with diffusion prior, they remain struggling to synthesize reasonable geometry in completely uncovered regions. One major reason is the high diversity of synthetic contents from the diffusion model, which hinders the radiance field from converging to a crisp and deterministic geometry. Moreover, applying latent diffusion models on real data often yields a textural shift incoherent to the image condition due to auto-encoding errors. These two problems are further reinforced with the use of pixel-distance losses. To address these issues, we propose tempering the diffusion model's stochasticity with per-scene customization and mitigating the textural shift with masked adversarial training. During the analyses, we also found the commonly used pixel and perceptual losses are harmful in the NeRF inpainting task. Through rigorous experiments, our framework yields state-of-the-art NeRF inpainting results on various real-world scenes. Project page: https://hubert0527.github.io/MALD-NeRF

Domare il Modello di Diffusione Latente per il Ritocco del Campo di Radianza Neurale

Taming Latent Diffusion Model for Neural Radiance Field Inpainting

Abstract

Support