ChatPaper.aiChatPaper

V^3:モバイル端末でストリーム可能な2Dダイナミックガウス関数を介して体積ビデオを表示する

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
著者: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

要旨

高品質のボリューメトリックビデオを2Dビデオと同様にシームレスに体験することは長年の夢でした。しかし、現在の動的3DGSメソッドは、レンダリング品質が高いにもかかわらず、計算および帯域制約のため、モバイルデバイスでのストリーミングに課題を抱えています。本論文では、動的ガウス分布のストリーミングを通じて高品質なモバイルレンダリングを実現する革新的なアプローチであるV3(ビューイングボリューメトリックビデオ)を紹介します。主要なイノベーションは、動的3DGSを2Dビデオとして捉え、ハードウェアビデオコーデックの使用を容易にすることです。さらに、ストレージ要件を削減するための2段階のトレーニング戦略を提案します。最初の段階では、ハッシュ符号化と浅いMLPを使用して動きを学習し、次に、ストリーミング要件を満たすためにガウス分布の数を削減するために剪定を行います。2段階目では、残差エントロピー損失と時間的損失を使用して他のガウス分布属性を微調整し、時間的な連続性を向上させます。この動きと外観を分離する戦略は、高いレンダリング品質を維持しつつ、コンパクトなストレージ要件を実現します。また、2Dガウスビデオをデコードおよびレンダリングするためのマルチプラットフォームプレーヤーを設計しました。幅広い実験により、V3の効果を実証し、従来のデバイスでの高品質なレンダリングとストリーミングを可能にすることで、他の手法を凌駕しています。モバイルデバイスで動的ガウス分布をストリーミングする最初のプロジェクトとして、当社のコンパニオンプレーヤーは、スムーズなスクロールや即座の共有を含む前例のないボリューメトリックビデオ体験をユーザーに提供します。ソースコード付きのプロジェクトページは、https://authoritywang.github.io/v3/ で入手できます。
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024