ChatPaper.aiChatPaper

V^3: Het bekijken van volumetrische video's op mobiele apparaten via streambare 2D dynamische Gaussians

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
Auteurs: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

Samenvatting

Het naadloos ervaren van volumetrische video's met een hoge nauwkeurigheid zoals 2D-video's is een langgekoesterde droom. Echter, huidige dynamische 3DGS-methoden, ondanks hun hoge renderkwaliteit, worden geconfronteerd met uitdagingen bij het streamen op mobiele apparaten vanwege computationele en bandbreedtebeperkingen. In dit artikel introduceren we V3 (Viewing Volumetric Videos), een innovatieve benadering die hoogwaardige mobiele rendering mogelijk maakt door het streamen van dynamische Gaussians. Onze belangrijkste innovatie is om dynamische 3DGS te bekijken als 2D-video's, waardoor het gebruik van hardware video codecs wordt vergemakkelijkt. Daarnaast stellen we een tweefasige trainingsstrategie voor om opslagvereisten te verminderen met een snelle trainingsnelheid. De eerste fase maakt gebruik van hash-codering en ondiepe MLP om beweging te leren, vermindert vervolgens het aantal Gaussians door snoeien om te voldoen aan de streamingvereisten, terwijl de tweede fase andere Gaussiaanse attributen fijnafstemt met behulp van restentie-entropieverlies en temporeel verlies om temporele continuïteit te verbeteren. Deze strategie, die beweging en verschijning ontkoppelt, behoudt een hoge renderkwaliteit met compacte opslagvereisten. Ondertussen hebben we een multi-platform speler ontworpen om 2D Gaussische video's te decoderen en weer te geven. Uitgebreide experimenten tonen de effectiviteit van V3 aan, waarbij het andere methoden overtreft door hoogwaardige rendering en streaming op gangbare apparaten mogelijk te maken, wat eerder niet gezien is. Als de eerste om dynamische Gaussians te streamen op mobiele apparaten, biedt onze bijbehorende speler gebruikers een ongekende volumetrische video-ervaring, inclusief soepel scrollen en direct delen. Onze projectpagina met broncode is beschikbaar op https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024