ExtraNeRF: Sichtbarkeitsbewusste Ansichtsextrapolation von Neuralen Strahlungsfeldern mit Diffusionsmodellen
ExtraNeRF: Visibility-Aware View Extrapolation of Neural Radiance Fields with Diffusion Models
June 10, 2024
papers.authors: Meng-Li Shih, Wei-Chiu Ma, Aleksander Holynski, Forrester Cole, Brian L. Curless, Janne Kontkanen
cs.AI
papers.abstract
Wir schlagen ExtraNeRF vor, eine neuartige Methode zur Extrapolation des Blickfelds, das von einem Neuralen Strahlungsfeld (NeRF) behandelt wird. Unsere Hauptidee besteht darin, NeRFs zu nutzen, um szenenspezifische, fein abgestufte Details zu modellieren, und gleichzeitig Diffusionsmodelle zu nutzen, um über unsere beobachteten Daten hinaus zu extrapolieren. Eine Schlüsselkomponente besteht darin, die Sichtbarkeit zu verfolgen, um zu bestimmen, welche Teile der Szene nicht beobachtet wurden, und sich darauf zu konzentrieren, diese Regionen konsistent mit Diffusionsmodellen zu rekonstruieren. Unsere Hauptbeiträge umfassen ein sichtbarkeitsbewusstes, auf Diffusion basierendes Inpainting-Modul, das auf den Eingangsbildern feinabgestimmt ist und einen anfänglichen NeRF mit mäßiger Qualität (oft unscharfe) Inpainting-Regionen liefert, gefolgt von einem zweiten Diffusionsmodell, das auf den Eingangsbildern trainiert ist, um die Inpainting-Bilder aus dem ersten Durchgang konsistent zu verbessern, insbesondere zu schärfen. Wir zeigen hochwertige Ergebnisse, die über eine kleine Anzahl von (typischerweise sechs oder weniger) Eingangsansichten hinausgehen, indem wir effektiv über das NeRF hinausgehen und neu verdeckte Regionen innerhalb des ursprünglichen Betrachtungsvolumens inpainten. Wir vergleichen quantitativ und qualitativ mit verwandten Arbeiten und zeigen signifikante Fortschritte gegenüber dem Stand der Technik.
English
We propose ExtraNeRF, a novel method for extrapolating the range of views
handled by a Neural Radiance Field (NeRF). Our main idea is to leverage NeRFs
to model scene-specific, fine-grained details, while capitalizing on diffusion
models to extrapolate beyond our observed data. A key ingredient is to track
visibility to determine what portions of the scene have not been observed, and
focus on reconstructing those regions consistently with diffusion models. Our
primary contributions include a visibility-aware diffusion-based inpainting
module that is fine-tuned on the input imagery, yielding an initial NeRF with
moderate quality (often blurry) inpainted regions, followed by a second
diffusion model trained on the input imagery to consistently enhance, notably
sharpen, the inpainted imagery from the first pass. We demonstrate high-quality
results, extrapolating beyond a small number of (typically six or fewer) input
views, effectively outpainting the NeRF as well as inpainting newly disoccluded
regions inside the original viewing volume. We compare with related work both
quantitatively and qualitatively and show significant gains over prior art.