Splatting Duplo Gaussiano Robusto para Vídeos Volumétricos Imersivos Centrados no Humano
Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
September 12, 2024
Autores: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Resumo
O vídeo volumétrico representa um avanço transformador na mídia visual, permitindo aos usuários navegar livremente por experiências virtuais imersivas e reduzindo a lacuna entre os mundos digital e real. No entanto, a necessidade de extensa intervenção manual para estabilizar sequências de malha e a geração de ativos excessivamente grandes nos fluxos de trabalho existentes impedem uma adoção mais ampla. Neste artigo, apresentamos uma abordagem inovadora baseada em Gaussianas, denominada DualGS, para reprodução em tempo real e de alta fidelidade de performances humanas complexas com excelentes taxas de compressão. A ideia principal do DualGS é representar separadamente o movimento e a aparência usando as Gaussianas de pele e de juntas correspondentes. Tal desentrelaçamento explícito pode reduzir significativamente a redundância de movimento e melhorar a coerência temporal. Começamos inicializando o DualGS e ancorando as Gaussianas de pele às Gaussianas de juntas no primeiro quadro. Posteriormente, empregamos uma estratégia de treinamento de grosso a fino para modelagem de desempenho humano quadro a quadro. Isso inclui uma fase de alinhamento grosseiro para previsão de movimento geral, bem como uma otimização detalhada para rastreamento robusto e renderização de alta fidelidade. Para integrar o vídeo volumétrico de forma transparente em ambientes de RV, comprimimos eficientemente o movimento usando codificação de entropia e a aparência usando compressão de codec combinada com um livro de códigos persistente. Nossa abordagem alcança uma taxa de compressão de até 120 vezes, exigindo apenas aproximadamente 350KB de armazenamento por quadro. Demonstramos a eficácia de nossa representação por meio de experiências fotorrealistas e de visualização livre em fones de ouvido de RV, permitindo aos usuários assistir imersivamente a músicos em performance e sentir o ritmo das notas nas pontas dos dedos dos artistas.
English
Volumetric video represents a transformative advancement in visual media,
enabling users to freely navigate immersive virtual experiences and narrowing
the gap between digital and real worlds. However, the need for extensive manual
intervention to stabilize mesh sequences and the generation of excessively
large assets in existing workflows impedes broader adoption. In this paper, we
present a novel Gaussian-based approach, dubbed DualGS, for real-time
and high-fidelity playback of complex human performance with excellent
compression ratios. Our key idea in DualGS is to separately represent motion
and appearance using the corresponding skin and joint Gaussians. Such an
explicit disentanglement can significantly reduce motion redundancy and enhance
temporal coherence. We begin by initializing the DualGS and anchoring skin
Gaussians to joint Gaussians at the first frame. Subsequently, we employ a
coarse-to-fine training strategy for frame-by-frame human performance modeling.
It includes a coarse alignment phase for overall motion prediction as well as a
fine-grained optimization for robust tracking and high-fidelity rendering. To
integrate volumetric video seamlessly into VR environments, we efficiently
compress motion using entropy encoding and appearance using codec compression
coupled with a persistent codebook. Our approach achieves a compression ratio
of up to 120 times, only requiring approximately 350KB of storage per frame. We
demonstrate the efficacy of our representation through photo-realistic,
free-view experiences on VR headsets, enabling users to immersively watch
musicians in performance and feel the rhythm of the notes at the performers'
fingertips.Summary
AI-Generated Summary