3DGStream: Entrenamiento en tiempo real de Gaussianas 3D para la transmisión eficiente de videos fotorrealísticos de vista libre
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
March 3, 2024
Autores: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI
Resumen
La construcción de videos de punto de vista libre (FVVs) fotorrealistas de escenas dinámicas a partir de videos multivista sigue siendo un desafío significativo. A pesar de los notables avances logrados por las técnicas actuales de renderizado neuronal, estos métodos generalmente requieren secuencias de video completas para entrenamiento fuera de línea y no son capaces de renderizado en tiempo real. Para abordar estas limitaciones, presentamos 3DGStream, un método diseñado para la transmisión eficiente de FVVs de escenas dinámicas del mundo real. Nuestro método logra una reconstrucción rápida por fotograma sobre la marcha en menos de 12 segundos y un renderizado en tiempo real a 200 FPS. Específicamente, utilizamos gaussianos 3D (3DGs) para representar la escena. En lugar del enfoque ingenuo de optimizar directamente los 3DGs por fotograma, empleamos un Caché de Transformación Neuronal (NTC) compacto para modelar las traslaciones y rotaciones de los 3DGs, reduciendo significativamente el tiempo de entrenamiento y el almacenamiento requerido para cada fotograma de FVV. Además, proponemos una estrategia adaptativa de adición de 3DGs para manejar objetos emergentes en escenas dinámicas. Los experimentos demuestran que 3DGStream logra un rendimiento competitivo en términos de velocidad de renderizado, calidad de imagen, tiempo de entrenamiento y almacenamiento del modelo en comparación con los métodos más avanzados.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes
from multi-view videos remains a challenging endeavor. Despite the remarkable
advancements achieved by current neural rendering techniques, these methods
generally require complete video sequences for offline training and are not
capable of real-time rendering. To address these constraints, we introduce
3DGStream, a method designed for efficient FVV streaming of real-world dynamic
scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12
seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D
Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of
directly optimizing 3DGs per-frame, we employ a compact Neural Transformation
Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing
the training time and storage required for each FVV frame. Furthermore, we
propose an adaptive 3DG addition strategy to handle emerging objects in dynamic
scenes. Experiments demonstrate that 3DGStream achieves competitive performance
in terms of rendering speed, image quality, training time, and model storage
when compared with state-of-the-art methods.