3DGStream: Addestramento in Tempo Reale di Gaussiane 3D per lo Streaming Efficiente di Video Foto-Realistici a Visualizzazione Libera
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
March 3, 2024
Autori: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI
Abstract
La costruzione di video a visualizzazione libera (Free-Viewpoint Videos, FVVs) fotorealistici di scene dinamiche a partire da video multi-vista rimane un'impresa impegnativa. Nonostante i notevoli progressi raggiunti dalle attuali tecniche di rendering neurale, questi metodi richiedono generalmente sequenze video complete per l'addestramento offline e non sono in grado di eseguire il rendering in tempo reale. Per affrontare queste limitazioni, introduciamo 3DGStream, un metodo progettato per lo streaming efficiente di FVV di scene dinamiche del mondo reale. Il nostro metodo raggiunge una ricostruzione rapida frame-by-frame in meno di 12 secondi e un rendering in tempo reale a 200 FPS. Nello specifico, utilizziamo Gaussiane 3D (3DGs) per rappresentare la scena. Invece dell'approccio ingenuo di ottimizzare direttamente le 3DGs per ogni frame, impieghiamo una cache neurale di trasformazione (Neural Transformation Cache, NTC) compatta per modellare le traslazioni e le rotazioni delle 3DGs, riducendo significativamente il tempo di addestramento e lo spazio di archiviazione richiesto per ogni frame FVV. Inoltre, proponiamo una strategia adattiva di aggiunta delle 3DGs per gestire gli oggetti emergenti nelle scene dinamiche. Gli esperimenti dimostrano che 3DGStream raggiunge prestazioni competitive in termini di velocità di rendering, qualità dell'immagine, tempo di addestramento e archiviazione del modello rispetto ai metodi all'avanguardia.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes
from multi-view videos remains a challenging endeavor. Despite the remarkable
advancements achieved by current neural rendering techniques, these methods
generally require complete video sequences for offline training and are not
capable of real-time rendering. To address these constraints, we introduce
3DGStream, a method designed for efficient FVV streaming of real-world dynamic
scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12
seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D
Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of
directly optimizing 3DGs per-frame, we employ a compact Neural Transformation
Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing
the training time and storage required for each FVV frame. Furthermore, we
propose an adaptive 3DG addition strategy to handle emerging objects in dynamic
scenes. Experiments demonstrate that 3DGStream achieves competitive performance
in terms of rendering speed, image quality, training time, and model storage
when compared with state-of-the-art methods.