V^3: Visualizzazione di Video Volumetrici su Dispositivi Mobili tramite Gaussiane Dinamiche 2D Trasmissibili
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
September 20, 2024
Autori: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI
Abstract
Sperimentare video volumetrici ad alta fedeltà in modo fluido come i video 2D è un sogno da tempo coltivato. Tuttavia, i metodi attuali di grafica 3D dinamica, nonostante la loro elevata qualità di rendering, affrontano sfide nello streaming su dispositivi mobili a causa di vincoli computazionali e di larghezza di banda. In questo articolo, presentiamo V3 (Visualizzazione Video Volumetrici), un nuovo approccio che consente un rendering mobile di alta qualità attraverso lo streaming di gaussiane dinamiche. La nostra innovazione chiave è considerare la grafica 3D dinamica come video 2D, facilitando l'uso dei codec video hardware. Inoltre, proponiamo una strategia di addestramento a due fasi per ridurre i requisiti di archiviazione con una rapida velocità di addestramento. La prima fase utilizza la codifica hash e un MLP superficiale per apprendere il movimento, riduce il numero di gaussiane tramite potatura per soddisfare i requisiti di streaming, mentre la seconda fase ottimizza altri attributi gaussiani utilizzando la perdita di entropia residua e la perdita temporale per migliorare la continuità temporale. Questa strategia, che separa il movimento dall'aspetto, mantiene un'alta qualità di rendering con requisiti di archiviazione compatti. Nel frattempo, abbiamo progettato un lettore multi-piattaforma per decodificare e renderizzare video gaussiani 2D. Estesi esperimenti dimostrano l'efficacia di V3, superando altri metodi consentendo un rendering e uno streaming di alta qualità su dispositivi comuni, cosa mai vista prima. Essendo i primi a streammare gaussiane dinamiche su dispositivi mobili, il nostro lettore compagno offre agli utenti un'esperienza di video volumetrici senza precedenti, inclusi lo scorrimento fluido e la condivisione istantanea. La nostra pagina del progetto con il codice sorgente è disponibile su https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a
long-held dream. However, current dynamic 3DGS methods, despite their high
rendering quality, face challenges in streaming on mobile devices due to
computational and bandwidth constraints. In this paper, we introduce
V3(Viewing Volumetric Videos), a novel approach that enables
high-quality mobile rendering through the streaming of dynamic Gaussians. Our
key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of
hardware video codecs. Additionally, we propose a two-stage training strategy
to reduce storage requirements with rapid training speed. The first stage
employs hash encoding and shallow MLP to learn motion, then reduces the number
of Gaussians through pruning to meet the streaming requirements, while the
second stage fine tunes other Gaussian attributes using residual entropy loss
and temporal loss to improve temporal continuity. This strategy, which
disentangles motion and appearance, maintains high rendering quality with
compact storage requirements. Meanwhile, we designed a multi-platform player to
decode and render 2D Gaussian videos. Extensive experiments demonstrate the
effectiveness of V3, outperforming other methods by enabling
high-quality rendering and streaming on common devices, which is unseen before.
As the first to stream dynamic Gaussians on mobile devices, our companion
player offers users an unprecedented volumetric video experience, including
smooth scrolling and instant sharing. Our project page with source code is
available at https://authoritywang.github.io/v3/.Summary
AI-Generated Summary