ChatPaper.aiChatPaper

Éclaboussure robuste à double gaussienne pour des vidéos volumétriques immersives centrées sur l'humain.

Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

September 12, 2024
Auteurs: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI

Résumé

La vidéo volumétrique représente une avancée transformative dans les médias visuels, permettant aux utilisateurs de naviguer librement dans des expériences virtuelles immersives et réduisant l'écart entre les mondes numérique et réel. Cependant, la nécessité d'une intervention manuelle extensive pour stabiliser les séquences de maillage et la génération d'actifs excessivement volumineux dans les flux de travail existants entravent une adoption plus large. Dans cet article, nous présentons une nouvelle approche basée sur les Gaussiennes, appelée DualGS, pour la lecture en temps réel et haute fidélité de performances humaines complexes avec d'excellents taux de compression. Notre idée clé dans DualGS est de représenter séparément le mouvement et l'apparence en utilisant les Gaussiennes de peau et d'articulations correspondantes. Un tel désenchevêtrement explicite peut réduire significativement la redondance de mouvement et améliorer la cohérence temporelle. Nous commençons par initialiser le DualGS et ancrer les Gaussiennes de peau aux Gaussiennes d'articulations au premier cadre. Ensuite, nous utilisons une stratégie d'entraînement grossier à fin pour la modélisation des performances humaines image par image. Cela inclut une phase d'alignement grossier pour la prédiction globale du mouvement ainsi qu'une optimisation fine pour un suivi robuste et un rendu haute fidélité. Pour intégrer la vidéo volumétrique de manière transparente dans les environnements de réalité virtuelle, nous comprimons efficacement le mouvement en utilisant un codage par entropie et l'apparence en utilisant une compression de codec couplée à un codebook persistant. Notre approche atteint un taux de compression allant jusqu'à 120 fois, nécessitant seulement environ 350 Ko de stockage par cadre. Nous démontrons l'efficacité de notre représentation à travers des expériences photoréalistes en vision libre sur des casques de réalité virtuelle, permettant aux utilisateurs de regarder de manière immersive des musiciens en performance et de ressentir le rythme des notes au bout des doigts des interprètes.
English
Volumetric video represents a transformative advancement in visual media, enabling users to freely navigate immersive virtual experiences and narrowing the gap between digital and real worlds. However, the need for extensive manual intervention to stabilize mesh sequences and the generation of excessively large assets in existing workflows impedes broader adoption. In this paper, we present a novel Gaussian-based approach, dubbed DualGS, for real-time and high-fidelity playback of complex human performance with excellent compression ratios. Our key idea in DualGS is to separately represent motion and appearance using the corresponding skin and joint Gaussians. Such an explicit disentanglement can significantly reduce motion redundancy and enhance temporal coherence. We begin by initializing the DualGS and anchoring skin Gaussians to joint Gaussians at the first frame. Subsequently, we employ a coarse-to-fine training strategy for frame-by-frame human performance modeling. It includes a coarse alignment phase for overall motion prediction as well as a fine-grained optimization for robust tracking and high-fidelity rendering. To integrate volumetric video seamlessly into VR environments, we efficiently compress motion using entropy encoding and appearance using codec compression coupled with a persistent codebook. Our approach achieves a compression ratio of up to 120 times, only requiring approximately 350KB of storage per frame. We demonstrate the efficacy of our representation through photo-realistic, free-view experiences on VR headsets, enabling users to immersively watch musicians in performance and feel the rhythm of the notes at the performers' fingertips.

Summary

AI-Generated Summary

PDF134November 16, 2024