ExtraNeRF: Extrapolação de Visão com Consciência de Visibilidade em Campos de Radiação Neural com Modelos de Difusão
ExtraNeRF: Visibility-Aware View Extrapolation of Neural Radiance Fields with Diffusion Models
June 10, 2024
Autores: Meng-Li Shih, Wei-Chiu Ma, Aleksander Holynski, Forrester Cole, Brian L. Curless, Janne Kontkanen
cs.AI
Resumo
Propomos o ExtraNeRF, um método inovador para extrapolar o intervalo de visões tratadas por um Campo de Radiação Neural (NeRF). Nossa ideia principal é aproveitar os NeRFs para modelar detalhes específicos e refinados da cena, enquanto utilizamos modelos de difusão para extrapolar além dos dados observados. Um elemento-chave é rastrear a visibilidade para determinar quais partes da cena não foram observadas e focar na reconstrução dessas regiões de forma consistente com modelos de difusão. Nossas principais contribuições incluem um módulo de preenchimento baseado em difusão e consciente da visibilidade, que é ajustado nas imagens de entrada, gerando um NeRF inicial com regiões preenchidas de qualidade moderada (frequentemente borradas), seguido por um segundo modelo de difusão treinado nas imagens de entrada para aprimorar consistentemente, notadamente nitidizar, as imagens preenchidas da primeira passagem. Demonstramos resultados de alta qualidade, extrapolando além de um pequeno número de visões de entrada (tipicamente seis ou menos), efetivamente expandindo o NeRF, bem como preenchendo novas regiões desoclusas dentro do volume de visualização original. Comparamos com trabalhos relacionados tanto quantitativa quanto qualitativamente e mostramos ganhos significativos em relação ao estado da arte anterior.
English
We propose ExtraNeRF, a novel method for extrapolating the range of views
handled by a Neural Radiance Field (NeRF). Our main idea is to leverage NeRFs
to model scene-specific, fine-grained details, while capitalizing on diffusion
models to extrapolate beyond our observed data. A key ingredient is to track
visibility to determine what portions of the scene have not been observed, and
focus on reconstructing those regions consistently with diffusion models. Our
primary contributions include a visibility-aware diffusion-based inpainting
module that is fine-tuned on the input imagery, yielding an initial NeRF with
moderate quality (often blurry) inpainted regions, followed by a second
diffusion model trained on the input imagery to consistently enhance, notably
sharpen, the inpainted imagery from the first pass. We demonstrate high-quality
results, extrapolating beyond a small number of (typically six or fewer) input
views, effectively outpainting the NeRF as well as inpainting newly disoccluded
regions inside the original viewing volume. We compare with related work both
quantitatively and qualitatively and show significant gains over prior art.