ChatPaper.aiChatPaper

Splatting Dual Gaussiano Robusto para Videos Volumétricos Inmersivos Centrados en Humanos

Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

September 12, 2024
Autores: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI

Resumen

El video volumétrico representa un avance transformador en los medios visuales, permitiendo a los usuarios navegar libremente por experiencias virtuales inmersivas y reduciendo la brecha entre los mundos digital y real. Sin embargo, la necesidad de una extensa intervención manual para estabilizar secuencias de malla y la generación de activos excesivamente grandes en flujos de trabajo existentes obstaculizan una adopción más amplia. En este documento, presentamos un novedoso enfoque basado en Gaussianas, denominado DualGS, para la reproducción en tiempo real y de alta fidelidad de actuaciones humanas complejas con excelentes ratios de compresión. Nuestra idea clave en DualGS es representar por separado el movimiento y la apariencia utilizando las Gaussianas correspondientes de piel y articulaciones. Dicha desentrelazación explícita puede reducir significativamente la redundancia de movimiento y mejorar la coherencia temporal. Comenzamos inicializando el DualGS y anclando las Gaussianas de piel a las Gaussianas de articulaciones en el primer fotograma. Posteriormente, empleamos una estrategia de entrenamiento de grueso a fino para la modelización de actuaciones humanas fotograma a fotograma. Esto incluye una fase de alineación gruesa para la predicción general del movimiento, así como una optimización detallada para un seguimiento robusto y una renderización de alta fidelidad. Para integrar el video volumétrico de manera fluida en entornos de realidad virtual, comprimimos eficientemente el movimiento utilizando codificación de entropía y la apariencia utilizando compresión de códec junto con un libro de códigos persistente. Nuestro enfoque logra un ratio de compresión de hasta 120 veces, requiriendo aproximadamente 350KB de almacenamiento por fotograma. Demostramos la eficacia de nuestra representación a través de experiencias fotorrealistas y de visualización libre en auriculares de realidad virtual, permitiendo a los usuarios ver inmersivamente a músicos actuando y sentir el ritmo de las notas en las puntas de los dedos de los intérpretes.
English
Volumetric video represents a transformative advancement in visual media, enabling users to freely navigate immersive virtual experiences and narrowing the gap between digital and real worlds. However, the need for extensive manual intervention to stabilize mesh sequences and the generation of excessively large assets in existing workflows impedes broader adoption. In this paper, we present a novel Gaussian-based approach, dubbed DualGS, for real-time and high-fidelity playback of complex human performance with excellent compression ratios. Our key idea in DualGS is to separately represent motion and appearance using the corresponding skin and joint Gaussians. Such an explicit disentanglement can significantly reduce motion redundancy and enhance temporal coherence. We begin by initializing the DualGS and anchoring skin Gaussians to joint Gaussians at the first frame. Subsequently, we employ a coarse-to-fine training strategy for frame-by-frame human performance modeling. It includes a coarse alignment phase for overall motion prediction as well as a fine-grained optimization for robust tracking and high-fidelity rendering. To integrate volumetric video seamlessly into VR environments, we efficiently compress motion using entropy encoding and appearance using codec compression coupled with a persistent codebook. Our approach achieves a compression ratio of up to 120 times, only requiring approximately 350KB of storage per frame. We demonstrate the efficacy of our representation through photo-realistic, free-view experiences on VR headsets, enabling users to immersively watch musicians in performance and feel the rhythm of the notes at the performers' fingertips.

Summary

AI-Generated Summary

PDF134November 16, 2024