ChatPaper.aiChatPaper

Splatfacto-W : Une implémentation Nerfstudio du lissage gaussien pour des collections de photos non contraintes

Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections

July 17, 2024
Auteurs: Congrong Xu, Justin Kerr, Angjoo Kanazawa
cs.AI

Résumé

La synthèse de nouvelles vues à partir de collections d'images non contraintes en conditions réelles reste une tâche importante mais difficile en raison des variations photométriques et des objets transitoires qui compliquent la reconstruction précise de la scène. Les méthodes précédentes ont abordé ces problèmes en intégrant des caractéristiques d'apparence par image dans les champs de radiance neuronaux (NeRFs). Bien que le lissage par gaussiennes 3D (3DGS) offre un entraînement plus rapide et un rendu en temps réel, son adaptation pour des collections d'images non contraintes est non triviale en raison de l'architecture substantiellement différente. Dans cet article, nous présentons Splatfacto-W, une approche qui intègre des caractéristiques de couleur neuronales par gaussienne et des embeddings d'apparence par image dans le processus de rasterisation, ainsi qu'un modèle de fond basé sur les harmoniques sphériques pour représenter les variations photométriques et mieux dépeindre les arrière-plans. Nos contributions clés incluent la modélisation latente de l'apparence, la gestion efficace des objets transitoires et la modélisation précise de l'arrière-plan. Splatfacto-W offre une synthèse de nouvelles vues de haute qualité en temps réel avec une meilleure cohérence de scène dans des scénarios réels. Notre méthode améliore le rapport signal sur bruit de crête (PSNR) de 5,3 dB en moyenne par rapport au 3DGS, accélère l'entraînement de 150 fois par rapport aux méthodes basées sur NeRF, et atteint une vitesse de rendu similaire au 3DGS. Des résultats vidéo supplémentaires et le code intégré à Nerfstudio sont disponibles à l'adresse https://kevinxu02.github.io/splatfactow/.
English
Novel view synthesis from unconstrained in-the-wild image collections remains a significant yet challenging task due to photometric variations and transient occluders that complicate accurate scene reconstruction. Previous methods have approached these issues by integrating per-image appearance features embeddings in Neural Radiance Fields (NeRFs). Although 3D Gaussian Splatting (3DGS) offers faster training and real-time rendering, adapting it for unconstrained image collections is non-trivial due to the substantially different architecture. In this paper, we introduce Splatfacto-W, an approach that integrates per-Gaussian neural color features and per-image appearance embeddings into the rasterization process, along with a spherical harmonics-based background model to represent varying photometric appearances and better depict backgrounds. Our key contributions include latent appearance modeling, efficient transient object handling, and precise background modeling. Splatfacto-W delivers high-quality, real-time novel view synthesis with improved scene consistency in in-the-wild scenarios. Our method improves the Peak Signal-to-Noise Ratio (PSNR) by an average of 5.3 dB compared to 3DGS, enhances training speed by 150 times compared to NeRF-based methods, and achieves a similar rendering speed to 3DGS. Additional video results and code integrated into Nerfstudio are available at https://kevinxu02.github.io/splatfactow/.

Summary

AI-Generated Summary

PDF62November 28, 2024