ChatPaper.aiChatPaper

3DGStream : Entraînement en temps réel de Gaussiennes 3D pour un streaming efficace de vidéos photoréalistes en vue libre

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

March 3, 2024
Auteurs: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI

Résumé

La construction de vidéos photo-réalistes à points de vue libres (Free-Viewpoint Videos, FVVs) de scènes dynamiques à partir de vidéos multi-vues reste un défi complexe. Malgré les avancées remarquables des techniques de rendu neuronal actuelles, ces méthodes nécessitent généralement des séquences vidéo complètes pour un entraînement hors ligne et ne sont pas capables de rendu en temps réel. Pour répondre à ces limitations, nous présentons 3DGStream, une méthode conçue pour le streaming efficace de FVVs de scènes dynamiques réelles. Notre méthode permet une reconstruction rapide image par image en moins de 12 secondes et un rendu en temps réel à 200 images par seconde (FPS). Plus précisément, nous utilisons des Gaussiennes 3D (3DGs) pour représenter la scène. Plutôt que d'optimiser directement les 3DGs image par image de manière naïve, nous employons un Cache de Transformation Neuronale (Neural Transformation Cache, NTC) compact pour modéliser les translations et rotations des 3DGs, réduisant ainsi significativement le temps d'entraînement et le stockage requis pour chaque image FVV. De plus, nous proposons une stratégie d'ajout adaptative de 3DGs pour gérer les objets émergents dans les scènes dynamiques. Les expériences montrent que 3DGStream atteint des performances compétitives en termes de vitesse de rendu, qualité d'image, temps d'entraînement et stockage du modèle par rapport aux méthodes de pointe.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
PDF60December 15, 2024