ChatPaper.aiChatPaper

V^3 : Visionnage de vidéos volumétriques sur mobiles via des gaussiennes dynamiques 2D diffusables

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
Auteurs: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

Résumé

Expérimenter des vidéos volumétriques haute fidélité aussi facilement que des vidéos 2D est un rêve de longue date. Cependant, les méthodes actuelles de génération dynamique 3D, malgré leur haute qualité de rendu, rencontrent des défis pour le streaming sur les appareils mobiles en raison de contraintes computationnelles et de bande passante. Dans cet article, nous présentons V3 (Visionnage de Vidéos Volumétriques), une approche novatrice qui permet un rendu mobile de haute qualité grâce au streaming de gaussiennes dynamiques. Notre innovation clé est de considérer la génération dynamique 3D comme des vidéos 2D, facilitant l'utilisation de codecs vidéo matériels. De plus, nous proposons une stratégie d'entraînement en deux étapes pour réduire les besoins de stockage avec une vitesse d'entraînement rapide. La première étape utilise un encodage de hachage et un MLP peu profond pour apprendre le mouvement, puis réduit le nombre de gaussiennes par élagage pour répondre aux exigences de streaming, tandis que la deuxième étape affine les autres attributs gaussiens en utilisant une perte d'entropie résiduelle et une perte temporelle pour améliorer la continuité temporelle. Cette stratégie, qui démêle le mouvement et l'apparence, maintient une haute qualité de rendu avec des exigences de stockage compactes. Parallèlement, nous avons conçu un lecteur multiplateforme pour décoder et rendre des vidéos gaussiennes 2D. Des expériences approfondies démontrent l'efficacité de V3, surpassant d'autres méthodes en permettant un rendu de haute qualité et un streaming sur des appareils courants, ce qui est inédit. En tant que premiers à diffuser des gaussiennes dynamiques sur des appareils mobiles, notre lecteur compagnon offre aux utilisateurs une expérience vidéo volumétrique sans précédent, comprenant un défilement fluide et un partage instantané. Notre page de projet avec le code source est disponible sur https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024