ChatPaper.aiChatPaper

V^3: Visualizzazione di Video Volumetrici su Dispositivi Mobili tramite Gaussiane Dinamiche 2D Trasmissibili

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
Autori: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

Abstract

Sperimentare video volumetrici ad alta fedeltà in modo fluido come i video 2D è un sogno da tempo coltivato. Tuttavia, i metodi attuali di grafica 3D dinamica, nonostante la loro elevata qualità di rendering, affrontano sfide nello streaming su dispositivi mobili a causa di vincoli computazionali e di larghezza di banda. In questo articolo, presentiamo V3 (Visualizzazione Video Volumetrici), un nuovo approccio che consente un rendering mobile di alta qualità attraverso lo streaming di gaussiane dinamiche. La nostra innovazione chiave è considerare la grafica 3D dinamica come video 2D, facilitando l'uso dei codec video hardware. Inoltre, proponiamo una strategia di addestramento a due fasi per ridurre i requisiti di archiviazione con una rapida velocità di addestramento. La prima fase utilizza la codifica hash e un MLP superficiale per apprendere il movimento, riduce il numero di gaussiane tramite potatura per soddisfare i requisiti di streaming, mentre la seconda fase ottimizza altri attributi gaussiani utilizzando la perdita di entropia residua e la perdita temporale per migliorare la continuità temporale. Questa strategia, che separa il movimento dall'aspetto, mantiene un'alta qualità di rendering con requisiti di archiviazione compatti. Nel frattempo, abbiamo progettato un lettore multi-piattaforma per decodificare e renderizzare video gaussiani 2D. Estesi esperimenti dimostrano l'efficacia di V3, superando altri metodi consentendo un rendering e uno streaming di alta qualità su dispositivi comuni, cosa mai vista prima. Essendo i primi a streammare gaussiane dinamiche su dispositivi mobili, il nostro lettore compagno offre agli utenti un'esperienza di video volumetrici senza precedenti, inclusi lo scorrimento fluido e la condivisione istantanea. La nostra pagina del progetto con il codice sorgente è disponibile su https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024