Splatfacto-W: Een Nerfstudio-implementatie van Gaussische Splatting voor Onbeperkte Fotoverzamelingen
Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections
July 17, 2024
Auteurs: Congrong Xu, Justin Kerr, Angjoo Kanazawa
cs.AI
Samenvatting
Het synthetiseren van nieuwe aanzichten uit onbeperkte, in het wild verzamelde afbeeldingscollecties blijft een belangrijk maar uitdagend probleem vanwege fotometrische variaties en tijdelijke occluders die een nauwkeurige scène-reconstructie bemoeilijken. Eerdere methoden hebben deze problemen benaderd door per-afbeelding uiterlijkheidskenmerken in te bedden in Neural Radiance Fields (NeRFs). Hoewel 3D Gaussian Splatting (3DGS) snellere training en real-time rendering biedt, is het aanpassen ervan voor onbeperkte afbeeldingscollecties niet triviaal vanwege de aanzienlijk verschillende architectuur. In dit artikel introduceren we Splatfacto-W, een benadering die per-Gaussiaanse neurale kleurkenmerken en per-afbeelding uiterlijkheidsinbeddingen integreert in het rasterisatieproces, samen met een op sferische harmonieën gebaseerd achtergrondmodel om variërende fotometrische uiterlijken te representeren en achtergronden beter weer te geven. Onze belangrijkste bijdragen omvatten latent uiterlijkheidsmodellering, efficiënte verwerking van tijdelijke objecten en precies achtergrondmodellering. Splatfacto-W levert hoogwaardige, real-time synthese van nieuwe aanzichten met verbeterde scèneconsistentie in in het wild scenario's. Onze methode verbetert de Peak Signal-to-Noise Ratio (PSNR) met gemiddeld 5,3 dB vergeleken met 3DGS, verhoogt de trainingssnelheid met 150 keer vergeleken met NeRF-gebaseerde methoden, en bereikt een vergelijkbare renderingssnelheid als 3DGS. Aanvullende videoresultaten en code geïntegreerd in Nerfstudio zijn beschikbaar op https://kevinxu02.github.io/splatfactow/.
English
Novel view synthesis from unconstrained in-the-wild image collections remains
a significant yet challenging task due to photometric variations and transient
occluders that complicate accurate scene reconstruction. Previous methods have
approached these issues by integrating per-image appearance features embeddings
in Neural Radiance Fields (NeRFs). Although 3D Gaussian Splatting (3DGS) offers
faster training and real-time rendering, adapting it for unconstrained image
collections is non-trivial due to the substantially different architecture. In
this paper, we introduce Splatfacto-W, an approach that integrates per-Gaussian
neural color features and per-image appearance embeddings into the
rasterization process, along with a spherical harmonics-based background model
to represent varying photometric appearances and better depict backgrounds. Our
key contributions include latent appearance modeling, efficient transient
object handling, and precise background modeling. Splatfacto-W delivers
high-quality, real-time novel view synthesis with improved scene consistency in
in-the-wild scenarios. Our method improves the Peak Signal-to-Noise Ratio
(PSNR) by an average of 5.3 dB compared to 3DGS, enhances training speed by 150
times compared to NeRF-based methods, and achieves a similar rendering speed to
3DGS. Additional video results and code integrated into Nerfstudio are
available at https://kevinxu02.github.io/splatfactow/.