V^3: Visualización de Videos Volumétricos en Dispositivos Móviles a través de Gaussianas Dinámicas 2D Transmitibles
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
September 20, 2024
Autores: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI
Resumen
Experimentar videos volumétricos de alta fidelidad tan fluidamente como los videos 2D es un sueño de larga data. Sin embargo, los métodos actuales de gráficos 3D dinámicos, a pesar de su alta calidad de renderizado, enfrentan desafíos al transmitir en dispositivos móviles debido a limitaciones computacionales y de ancho de banda. En este documento, presentamos V3 (Visualización de Videos Volumétricos), un enfoque novedoso que permite un renderizado móvil de alta calidad a través de la transmisión de gaussianas dinámicas. Nuestra innovación clave es visualizar los gráficos 3D dinámicos como videos 2D, facilitando el uso de códecs de video de hardware. Además, proponemos una estrategia de entrenamiento de dos etapas para reducir los requisitos de almacenamiento con una velocidad de entrenamiento rápida. La primera etapa utiliza codificación hash y MLP superficial para aprender el movimiento, luego reduce el número de gaussianas a través de la poda para cumplir con los requisitos de transmisión, mientras que la segunda etapa ajusta otros atributos gaussianos utilizando pérdida de entropía residual y pérdida temporal para mejorar la continuidad temporal. Esta estrategia, que desenreda el movimiento y la apariencia, mantiene una alta calidad de renderizado con requisitos de almacenamiento compactos. Mientras tanto, diseñamos un reproductor multiplataforma para decodificar y renderizar videos gaussianos 2D. Experimentos extensos demuestran la efectividad de V3, superando a otros métodos al permitir un renderizado y transmisión de alta calidad en dispositivos comunes, algo nunca antes visto. Como los primeros en transmitir gaussianas dinámicas en dispositivos móviles, nuestro reproductor compañero ofrece a los usuarios una experiencia de video volumétrico sin precedentes, incluyendo desplazamiento suave y uso compartido instantáneo. Nuestra página de proyecto con el código fuente está disponible en https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a
long-held dream. However, current dynamic 3DGS methods, despite their high
rendering quality, face challenges in streaming on mobile devices due to
computational and bandwidth constraints. In this paper, we introduce
V3(Viewing Volumetric Videos), a novel approach that enables
high-quality mobile rendering through the streaming of dynamic Gaussians. Our
key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of
hardware video codecs. Additionally, we propose a two-stage training strategy
to reduce storage requirements with rapid training speed. The first stage
employs hash encoding and shallow MLP to learn motion, then reduces the number
of Gaussians through pruning to meet the streaming requirements, while the
second stage fine tunes other Gaussian attributes using residual entropy loss
and temporal loss to improve temporal continuity. This strategy, which
disentangles motion and appearance, maintains high rendering quality with
compact storage requirements. Meanwhile, we designed a multi-platform player to
decode and render 2D Gaussian videos. Extensive experiments demonstrate the
effectiveness of V3, outperforming other methods by enabling
high-quality rendering and streaming on common devices, which is unseen before.
As the first to stream dynamic Gaussians on mobile devices, our companion
player offers users an unprecedented volumetric video experience, including
smooth scrolling and instant sharing. Our project page with source code is
available at https://authoritywang.github.io/v3/.Summary
AI-Generated Summary