Splatting robusto a doppia Gaussiana per video volumetrici immersivi centrati sull'essere umano.
Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
September 12, 2024
Autori: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Abstract
Il video volumetrico rappresenta un avanzamento trasformativo nei media visivi, consentendo agli utenti di navigare liberamente esperienze virtuali immersive e riducendo il divario tra mondi digitali e reali. Tuttavia, la necessità di un'elevata intervento manuale per stabilizzare sequenze mesh e la generazione di risorse eccessivamente grandi nei flussi di lavoro esistenti ostacolano una più ampia adozione. In questo articolo, presentiamo un nuovo approccio basato su Gaussiana, chiamato DualGS, per la riproduzione in tempo reale e ad alta fedeltà di complesse performance umane con eccellenti rapporti di compressione. L'idea chiave di DualGS è rappresentare separatamente il movimento e l'aspetto utilizzando le rispettive Gaussiane della pelle e delle articolazioni. Tale disintegrazione esplicita può ridurre significativamente la ridondanza del movimento e migliorare la coerenza temporale. Iniziamo inizializzando il DualGS e ancorando le Gaussiane della pelle alle Gaussiane delle articolazioni al primo fotogramma. Successivamente, adottiamo una strategia di addestramento da grezzo a fine per la modellazione delle performance umane fotogramma per fotogramma. Questo include una fase di allineamento grezza per la previsione del movimento complessivo e un'ottimizzazione dettagliata per un tracciamento robusto e un rendering ad alta fedeltà. Per integrare il video volumetrico in modo trasparente negli ambienti VR, comprimiamo efficientemente il movimento utilizzando la codifica dell'entropia e l'aspetto utilizzando la compressione del codec accoppiata con un libro dei codici persistente. Il nostro approccio raggiunge un rapporto di compressione fino a 120 volte, richiedendo approssimativamente solo 350KB di archiviazione per fotogramma. Dimostriamo l'efficacia della nostra rappresentazione attraverso esperienze fotorealistiche e a visione libera su visori VR, consentendo agli utenti di guardare in modo immersivo musicisti in performance e percepire il ritmo delle note alle dita degli interpreti.
English
Volumetric video represents a transformative advancement in visual media,
enabling users to freely navigate immersive virtual experiences and narrowing
the gap between digital and real worlds. However, the need for extensive manual
intervention to stabilize mesh sequences and the generation of excessively
large assets in existing workflows impedes broader adoption. In this paper, we
present a novel Gaussian-based approach, dubbed DualGS, for real-time
and high-fidelity playback of complex human performance with excellent
compression ratios. Our key idea in DualGS is to separately represent motion
and appearance using the corresponding skin and joint Gaussians. Such an
explicit disentanglement can significantly reduce motion redundancy and enhance
temporal coherence. We begin by initializing the DualGS and anchoring skin
Gaussians to joint Gaussians at the first frame. Subsequently, we employ a
coarse-to-fine training strategy for frame-by-frame human performance modeling.
It includes a coarse alignment phase for overall motion prediction as well as a
fine-grained optimization for robust tracking and high-fidelity rendering. To
integrate volumetric video seamlessly into VR environments, we efficiently
compress motion using entropy encoding and appearance using codec compression
coupled with a persistent codebook. Our approach achieves a compression ratio
of up to 120 times, only requiring approximately 350KB of storage per frame. We
demonstrate the efficacy of our representation through photo-realistic,
free-view experiences on VR headsets, enabling users to immersively watch
musicians in performance and feel the rhythm of the notes at the performers'
fingertips.Summary
AI-Generated Summary