ChatPaper.aiChatPaper

没入型の人間中心のボリューメトリックビデオのための堅牢なデュアルガウススプラッティング

Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

September 12, 2024
著者: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI

要旨

ボリュメトリックビデオは、視覚メディアにおける革新的な進歩を表しており、ユーザーが没入型仮想体験を自由にナビゲートし、デジタルと現実世界との間の隔たりを狭めることができます。ただし、既存のワークフローにおいてメッシュシーケンスを安定化させるための広範な手動介入と、過剰に大きなアセットの生成が広く採用を妨げています。本論文では、複雑な人間のパフォーマンスをリアルタイムかつ高品質に再生するための新しいガウスベースのアプローチであるDualGSを提案します。DualGSの主要なアイデアは、対応するスキンとジョイントのガウス分布を使用して動きと外観を別々に表現することです。この明示的な分離により、動きの冗長性を大幅に削減し、時間的な整合性を向上させることができます。最初のフレームでDualGSを初期化し、スキンのガウス分布をジョイントのガウス分布にアンカーし始めます。その後、フレームごとの人間のパフォーマンスモデリングのための粗から細のトレーニング戦略を採用します。これには、全体的な動き予測のための粗いアライメントフェーズと、頑健なトラッキングと高品質なレンダリングのための細かい最適化が含まれます。ボリュメトリックビデオをVR環境にシームレスに統合するために、動きはエントロピー符号化を使用して効率的に圧縮し、外観はコーデック圧縮と永続的なコードブックを組み合わせて圧縮します。このアプローチにより、フレームあたり約350KBのストレージしか必要とせず、最大120倍の圧縮率が達成されます。私たちの表現の効果を証明するために、VRヘッドセットでフォトリアルなフリービュー体験を通じて、ミュージシャンのパフォーマンスを没入型に観賞し、演奏者の指先のリズムを感じることができるようになります。
English
Volumetric video represents a transformative advancement in visual media, enabling users to freely navigate immersive virtual experiences and narrowing the gap between digital and real worlds. However, the need for extensive manual intervention to stabilize mesh sequences and the generation of excessively large assets in existing workflows impedes broader adoption. In this paper, we present a novel Gaussian-based approach, dubbed DualGS, for real-time and high-fidelity playback of complex human performance with excellent compression ratios. Our key idea in DualGS is to separately represent motion and appearance using the corresponding skin and joint Gaussians. Such an explicit disentanglement can significantly reduce motion redundancy and enhance temporal coherence. We begin by initializing the DualGS and anchoring skin Gaussians to joint Gaussians at the first frame. Subsequently, we employ a coarse-to-fine training strategy for frame-by-frame human performance modeling. It includes a coarse alignment phase for overall motion prediction as well as a fine-grained optimization for robust tracking and high-fidelity rendering. To integrate volumetric video seamlessly into VR environments, we efficiently compress motion using entropy encoding and appearance using codec compression coupled with a persistent codebook. Our approach achieves a compression ratio of up to 120 times, only requiring approximately 350KB of storage per frame. We demonstrate the efficacy of our representation through photo-realistic, free-view experiences on VR headsets, enabling users to immersively watch musicians in performance and feel the rhythm of the notes at the performers' fingertips.

Summary

AI-Generated Summary

PDF134November 16, 2024