ChatPaper.aiChatPaper

V^3: Anzeigen volumetrischer Videos auf Mobilgeräten über streambare 2D-dynamische Gaussfunktionen

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
Autoren: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

Zusammenfassung

Die Erfahrung hochauflösender volumetrischer Videos so nahtlos wie 2D-Videos ist ein lang gehegter Traum. Allerdings stehen aktuelle dynamische 3DGS-Methoden trotz ihrer hohen Rendering-Qualität vor Herausforderungen beim Streaming auf mobilen Geräten aufgrund von Rechen- und Bandbreitenbeschränkungen. In diesem Artikel stellen wir V3 (Viewing Volumetric Videos) vor, einen neuartigen Ansatz, der hochwertiges mobiles Rendering durch das Streaming dynamischer Gaussians ermöglicht. Unsere Hauptinnovation besteht darin, dynamische 3DGS als 2D-Videos zu betrachten, was die Verwendung von Hardware-Video-Codecs erleichtert. Darüber hinaus schlagen wir eine Zwei-Stufen-Trainingsstrategie vor, um den Speicherbedarf bei schneller Trainingsgeschwindigkeit zu reduzieren. Die erste Stufe verwendet Hash-Codierung und flache MLP, um Bewegungen zu erlernen, reduziert dann die Anzahl der Gaussians durch Beschneiden, um die Streaming-Anforderungen zu erfüllen, während die zweite Stufe andere Gauss-Attribute mithilfe von Restentropieverlust und zeitlichem Verlust feinabstimmt, um die zeitliche Kontinuität zu verbessern. Diese Strategie, die Bewegung und Erscheinung entkoppelt, gewährleistet eine hohe Rendering-Qualität bei kompakten Speicheranforderungen. Gleichzeitig haben wir einen Multi-Plattform-Player entwickelt, um 2D-Gaussian-Videos zu decodieren und zu rendern. Umfangreiche Experimente zeigen die Wirksamkeit von V3, indem sie durch hochwertiges Rendering und Streaming auf gängigen Geräten eine Leistungssteigerung im Vergleich zu anderen Methoden ermöglichen, was bisher nicht gesehen wurde. Als Erste, die dynamische Gaussians auf mobilen Geräten streamen, bietet unser Begleitplayer den Benutzern eine beispiellose volumetrische Videoerfahrung, einschließlich sanften Scrollens und sofortigem Teilen. Unsere Projektseite mit dem Quellcode ist unter https://authoritywang.github.io/v3/ verfügbar.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024