V^3 : Visionnage de vidéos volumétriques sur mobiles via des gaussiennes dynamiques 2D diffusables
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
September 20, 2024
Auteurs: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI
Résumé
Expérimenter des vidéos volumétriques haute fidélité aussi facilement que des vidéos 2D est un rêve de longue date. Cependant, les méthodes actuelles de génération dynamique 3D, malgré leur haute qualité de rendu, rencontrent des défis pour le streaming sur les appareils mobiles en raison de contraintes computationnelles et de bande passante. Dans cet article, nous présentons V3 (Visionnage de Vidéos Volumétriques), une approche novatrice qui permet un rendu mobile de haute qualité grâce au streaming de gaussiennes dynamiques. Notre innovation clé est de considérer la génération dynamique 3D comme des vidéos 2D, facilitant l'utilisation de codecs vidéo matériels. De plus, nous proposons une stratégie d'entraînement en deux étapes pour réduire les besoins de stockage avec une vitesse d'entraînement rapide. La première étape utilise un encodage de hachage et un MLP peu profond pour apprendre le mouvement, puis réduit le nombre de gaussiennes par élagage pour répondre aux exigences de streaming, tandis que la deuxième étape affine les autres attributs gaussiens en utilisant une perte d'entropie résiduelle et une perte temporelle pour améliorer la continuité temporelle. Cette stratégie, qui démêle le mouvement et l'apparence, maintient une haute qualité de rendu avec des exigences de stockage compactes. Parallèlement, nous avons conçu un lecteur multiplateforme pour décoder et rendre des vidéos gaussiennes 2D. Des expériences approfondies démontrent l'efficacité de V3, surpassant d'autres méthodes en permettant un rendu de haute qualité et un streaming sur des appareils courants, ce qui est inédit. En tant que premiers à diffuser des gaussiennes dynamiques sur des appareils mobiles, notre lecteur compagnon offre aux utilisateurs une expérience vidéo volumétrique sans précédent, comprenant un défilement fluide et un partage instantané. Notre page de projet avec le code source est disponible sur https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a
long-held dream. However, current dynamic 3DGS methods, despite their high
rendering quality, face challenges in streaming on mobile devices due to
computational and bandwidth constraints. In this paper, we introduce
V3(Viewing Volumetric Videos), a novel approach that enables
high-quality mobile rendering through the streaming of dynamic Gaussians. Our
key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of
hardware video codecs. Additionally, we propose a two-stage training strategy
to reduce storage requirements with rapid training speed. The first stage
employs hash encoding and shallow MLP to learn motion, then reduces the number
of Gaussians through pruning to meet the streaming requirements, while the
second stage fine tunes other Gaussian attributes using residual entropy loss
and temporal loss to improve temporal continuity. This strategy, which
disentangles motion and appearance, maintains high rendering quality with
compact storage requirements. Meanwhile, we designed a multi-platform player to
decode and render 2D Gaussian videos. Extensive experiments demonstrate the
effectiveness of V3, outperforming other methods by enabling
high-quality rendering and streaming on common devices, which is unseen before.
As the first to stream dynamic Gaussians on mobile devices, our companion
player offers users an unprecedented volumetric video experience, including
smooth scrolling and instant sharing. Our project page with source code is
available at https://authoritywang.github.io/v3/.Summary
AI-Generated Summary