3DGStream : Entraînement en temps réel de Gaussiennes 3D pour un streaming efficace de vidéos photoréalistes en vue libre
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
March 3, 2024
Auteurs: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI
Résumé
La construction de vidéos photo-réalistes à points de vue libres (Free-Viewpoint Videos, FVVs) de scènes dynamiques à partir de vidéos multi-vues reste un défi complexe. Malgré les avancées remarquables des techniques de rendu neuronal actuelles, ces méthodes nécessitent généralement des séquences vidéo complètes pour un entraînement hors ligne et ne sont pas capables de rendu en temps réel. Pour répondre à ces limitations, nous présentons 3DGStream, une méthode conçue pour le streaming efficace de FVVs de scènes dynamiques réelles. Notre méthode permet une reconstruction rapide image par image en moins de 12 secondes et un rendu en temps réel à 200 images par seconde (FPS). Plus précisément, nous utilisons des Gaussiennes 3D (3DGs) pour représenter la scène. Plutôt que d'optimiser directement les 3DGs image par image de manière naïve, nous employons un Cache de Transformation Neuronale (Neural Transformation Cache, NTC) compact pour modéliser les translations et rotations des 3DGs, réduisant ainsi significativement le temps d'entraînement et le stockage requis pour chaque image FVV. De plus, nous proposons une stratégie d'ajout adaptative de 3DGs pour gérer les objets émergents dans les scènes dynamiques. Les expériences montrent que 3DGStream atteint des performances compétitives en termes de vitesse de rendu, qualité d'image, temps d'entraînement et stockage du modèle par rapport aux méthodes de pointe.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes
from multi-view videos remains a challenging endeavor. Despite the remarkable
advancements achieved by current neural rendering techniques, these methods
generally require complete video sequences for offline training and are not
capable of real-time rendering. To address these constraints, we introduce
3DGStream, a method designed for efficient FVV streaming of real-world dynamic
scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12
seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D
Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of
directly optimizing 3DGs per-frame, we employ a compact Neural Transformation
Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing
the training time and storage required for each FVV frame. Furthermore, we
propose an adaptive 3DG addition strategy to handle emerging objects in dynamic
scenes. Experiments demonstrate that 3DGStream achieves competitive performance
in terms of rendering speed, image quality, training time, and model storage
when compared with state-of-the-art methods.