Splatfacto-W: Un'implementazione Nerfstudio del Gaussian Splatting per Collezioni Fotografiche Senza Vincoli
Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections
July 17, 2024
Autori: Congrong Xu, Justin Kerr, Angjoo Kanazawa
cs.AI
Abstract
La sintesi di nuove viste da collezioni di immagini in-the-wild non vincolate rimane un compito significativo ma impegnativo a causa delle variazioni fotometriche e degli ocludenti transienti che complicano la ricostruzione accurata della scena. I metodi precedenti hanno affrontato questi problemi integrando embedding di caratteristiche di aspetto per immagine nei Campi di Radianza Neurale (NeRF). Sebbene il 3D Gaussian Splatting (3DGS) offra un addestramento più veloce e un rendering in tempo reale, adattarlo per collezioni di immagini non vincolate non è banale a causa dell'architettura sostanzialmente diversa. In questo articolo, introduciamo Splatfacto-W, un approccio che integra caratteristiche di colore neurali per Gaussiana e embedding di aspetto per immagine nel processo di rasterizzazione, insieme a un modello di sfondo basato su armoniche sferiche per rappresentare le variazioni fotometriche e descrivere meglio gli sfondi. I nostri contributi principali includono la modellazione latente dell'aspetto, la gestione efficiente degli oggetti transienti e la modellazione precisa dello sfondo. Splatfacto-W offre una sintesi di nuove viste di alta qualità in tempo reale con una migliore coerenza della scena in scenari in-the-wild. Il nostro metodo migliora il rapporto segnale-rumore di picco (PSNR) in media di 5,3 dB rispetto al 3DGS, aumenta la velocità di addestramento di 150 volte rispetto ai metodi basati su NeRF e raggiunge una velocità di rendering simile al 3DGS. Ulteriori risultati video e il codice integrato in Nerfstudio sono disponibili all'indirizzo https://kevinxu02.github.io/splatfactow/.
English
Novel view synthesis from unconstrained in-the-wild image collections remains
a significant yet challenging task due to photometric variations and transient
occluders that complicate accurate scene reconstruction. Previous methods have
approached these issues by integrating per-image appearance features embeddings
in Neural Radiance Fields (NeRFs). Although 3D Gaussian Splatting (3DGS) offers
faster training and real-time rendering, adapting it for unconstrained image
collections is non-trivial due to the substantially different architecture. In
this paper, we introduce Splatfacto-W, an approach that integrates per-Gaussian
neural color features and per-image appearance embeddings into the
rasterization process, along with a spherical harmonics-based background model
to represent varying photometric appearances and better depict backgrounds. Our
key contributions include latent appearance modeling, efficient transient
object handling, and precise background modeling. Splatfacto-W delivers
high-quality, real-time novel view synthesis with improved scene consistency in
in-the-wild scenarios. Our method improves the Peak Signal-to-Noise Ratio
(PSNR) by an average of 5.3 dB compared to 3DGS, enhances training speed by 150
times compared to NeRF-based methods, and achieves a similar rendering speed to
3DGS. Additional video results and code integrated into Nerfstudio are
available at https://kevinxu02.github.io/splatfactow/.