ChatPaper.aiChatPaper

V^3: Visualização de Vídeos Volumétricos em Dispositivos Móveis via Gaussianas Dinâmicas 2D Transmitíveis

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
Autores: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

Resumo

Experimentar vídeos volumétricos de alta fidelidade tão facilmente quanto vídeos 2D é um sonho antigo. No entanto, os métodos atuais de gráficos 3D dinâmicos, apesar de sua alta qualidade de renderização, enfrentam desafios no streaming em dispositivos móveis devido a restrições computacionais e de largura de banda. Neste artigo, apresentamos V3 (Visualização de Vídeos Volumétricos), uma abordagem inovadora que possibilita renderização móvel de alta qualidade por meio do streaming de Gaussianas dinâmicas. Nossa principal inovação é visualizar gráficos 3D dinâmicos como vídeos 2D, facilitando o uso de codecs de vídeo de hardware. Além disso, propomos uma estratégia de treinamento em duas etapas para reduzir os requisitos de armazenamento com velocidade de treinamento rápida. A primeira etapa utiliza codificação de hash e MLP superficial para aprender movimento, reduzindo então o número de Gaussianas por meio de poda para atender aos requisitos de streaming, enquanto a segunda etapa ajusta outros atributos de Gaussianas usando perda de entropia residual e perda temporal para melhorar a continuidade temporal. Essa estratégia, que separa movimento e aparência, mantém alta qualidade de renderização com requisitos de armazenamento compactos. Além disso, projetamos um reprodutor multiplataforma para decodificar e renderizar vídeos Gaussianos 2D. Experimentos extensivos demonstram a eficácia do V3, superando outros métodos ao possibilitar renderização e streaming de alta qualidade em dispositivos comuns, algo nunca visto antes. Como os primeiros a transmitir Gaussianas dinâmicas em dispositivos móveis, nosso reprodutor companheiro oferece aos usuários uma experiência de vídeo volumétrico sem precedentes, incluindo rolagem suave e compartilhamento instantâneo. Nossa página do projeto com código-fonte está disponível em https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024