ChatPaper.aiChatPaper

Splatfacto-W: Un'implementazione Nerfstudio del Gaussian Splatting per Collezioni Fotografiche Senza Vincoli

Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections

July 17, 2024
Autori: Congrong Xu, Justin Kerr, Angjoo Kanazawa
cs.AI

Abstract

La sintesi di nuove viste da collezioni di immagini in-the-wild non vincolate rimane un compito significativo ma impegnativo a causa delle variazioni fotometriche e degli ocludenti transienti che complicano la ricostruzione accurata della scena. I metodi precedenti hanno affrontato questi problemi integrando embedding di caratteristiche di aspetto per immagine nei Campi di Radianza Neurale (NeRF). Sebbene il 3D Gaussian Splatting (3DGS) offra un addestramento più veloce e un rendering in tempo reale, adattarlo per collezioni di immagini non vincolate non è banale a causa dell'architettura sostanzialmente diversa. In questo articolo, introduciamo Splatfacto-W, un approccio che integra caratteristiche di colore neurali per Gaussiana e embedding di aspetto per immagine nel processo di rasterizzazione, insieme a un modello di sfondo basato su armoniche sferiche per rappresentare le variazioni fotometriche e descrivere meglio gli sfondi. I nostri contributi principali includono la modellazione latente dell'aspetto, la gestione efficiente degli oggetti transienti e la modellazione precisa dello sfondo. Splatfacto-W offre una sintesi di nuove viste di alta qualità in tempo reale con una migliore coerenza della scena in scenari in-the-wild. Il nostro metodo migliora il rapporto segnale-rumore di picco (PSNR) in media di 5,3 dB rispetto al 3DGS, aumenta la velocità di addestramento di 150 volte rispetto ai metodi basati su NeRF e raggiunge una velocità di rendering simile al 3DGS. Ulteriori risultati video e il codice integrato in Nerfstudio sono disponibili all'indirizzo https://kevinxu02.github.io/splatfactow/.
English
Novel view synthesis from unconstrained in-the-wild image collections remains a significant yet challenging task due to photometric variations and transient occluders that complicate accurate scene reconstruction. Previous methods have approached these issues by integrating per-image appearance features embeddings in Neural Radiance Fields (NeRFs). Although 3D Gaussian Splatting (3DGS) offers faster training and real-time rendering, adapting it for unconstrained image collections is non-trivial due to the substantially different architecture. In this paper, we introduce Splatfacto-W, an approach that integrates per-Gaussian neural color features and per-image appearance embeddings into the rasterization process, along with a spherical harmonics-based background model to represent varying photometric appearances and better depict backgrounds. Our key contributions include latent appearance modeling, efficient transient object handling, and precise background modeling. Splatfacto-W delivers high-quality, real-time novel view synthesis with improved scene consistency in in-the-wild scenarios. Our method improves the Peak Signal-to-Noise Ratio (PSNR) by an average of 5.3 dB compared to 3DGS, enhances training speed by 150 times compared to NeRF-based methods, and achieves a similar rendering speed to 3DGS. Additional video results and code integrated into Nerfstudio are available at https://kevinxu02.github.io/splatfactow/.
PDF62November 28, 2024