Splatfacto-W: Una Implementación de Nerfstudio de Splatting Gaussiano para Colecciones de Fotos No Restringidas
Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections
July 17, 2024
Autores: Congrong Xu, Justin Kerr, Angjoo Kanazawa
cs.AI
Resumen
La síntesis de vistas novedosas a partir de colecciones de imágenes no restringidas en la naturaleza sigue siendo una tarea significativa pero desafiante debido a variaciones fotométricas y oclusores transitorios que complican la reconstrucción precisa de escenas. Métodos previos han abordado estos problemas mediante la integración de características de apariencia por imagen en Campos de Radiación Neurales (NeRFs). Aunque el Splatting Gaussiano 3D (3DGS) ofrece un entrenamiento más rápido y renderizado en tiempo real, adaptarlo para colecciones de imágenes no restringidas es no trivial debido a la arquitectura sustancialmente diferente. En este documento, presentamos Splatfacto-W, un enfoque que integra características de color neurales Gaussianas por Gaussiana y anclajes de apariencia por imagen en el proceso de rasterización, junto con un modelo de fondo basado en armónicos esféricos para representar apariencias fotométricas variables y representar mejor los fondos. Nuestras contribuciones clave incluyen modelado de apariencia latente, manejo eficiente de objetos transitorios y modelado preciso de fondos. Splatfacto-W ofrece una síntesis de vistas novedosas de alta calidad y en tiempo real con una consistencia de escena mejorada en escenarios naturales. Nuestro método mejora el Pico de la Relación Señal a Ruido (PSNR) en un promedio de 5.3 dB en comparación con 3DGS, mejora la velocidad de entrenamiento en 150 veces en comparación con los métodos basados en NeRF, y logra una velocidad de renderizado similar a 3DGS. Resultados de video adicionales y código integrado en Nerfstudio están disponibles en https://kevinxu02.github.io/splatfactow/.
English
Novel view synthesis from unconstrained in-the-wild image collections remains
a significant yet challenging task due to photometric variations and transient
occluders that complicate accurate scene reconstruction. Previous methods have
approached these issues by integrating per-image appearance features embeddings
in Neural Radiance Fields (NeRFs). Although 3D Gaussian Splatting (3DGS) offers
faster training and real-time rendering, adapting it for unconstrained image
collections is non-trivial due to the substantially different architecture. In
this paper, we introduce Splatfacto-W, an approach that integrates per-Gaussian
neural color features and per-image appearance embeddings into the
rasterization process, along with a spherical harmonics-based background model
to represent varying photometric appearances and better depict backgrounds. Our
key contributions include latent appearance modeling, efficient transient
object handling, and precise background modeling. Splatfacto-W delivers
high-quality, real-time novel view synthesis with improved scene consistency in
in-the-wild scenarios. Our method improves the Peak Signal-to-Noise Ratio
(PSNR) by an average of 5.3 dB compared to 3DGS, enhances training speed by 150
times compared to NeRF-based methods, and achieves a similar rendering speed to
3DGS. Additional video results and code integrated into Nerfstudio are
available at https://kevinxu02.github.io/splatfactow/.Summary
AI-Generated Summary