3DGStream: Addestramento in Tempo Reale di Gaussiane 3D per lo Streaming Efficiente di Video Foto-Realistici a Visualizzazione Libera

Abstract

La costruzione di video a visualizzazione libera (Free-Viewpoint Videos, FVVs) fotorealistici di scene dinamiche a partire da video multi-vista rimane un'impresa impegnativa. Nonostante i notevoli progressi raggiunti dalle attuali tecniche di rendering neurale, questi metodi richiedono generalmente sequenze video complete per l'addestramento offline e non sono in grado di eseguire il rendering in tempo reale. Per affrontare queste limitazioni, introduciamo 3DGStream, un metodo progettato per lo streaming efficiente di FVV di scene dinamiche del mondo reale. Il nostro metodo raggiunge una ricostruzione rapida frame-by-frame in meno di 12 secondi e un rendering in tempo reale a 200 FPS. Nello specifico, utilizziamo Gaussiane 3D (3DGs) per rappresentare la scena. Invece dell'approccio ingenuo di ottimizzare direttamente le 3DGs per ogni frame, impieghiamo una cache neurale di trasformazione (Neural Transformation Cache, NTC) compatta per modellare le traslazioni e le rotazioni delle 3DGs, riducendo significativamente il tempo di addestramento e lo spazio di archiviazione richiesto per ogni frame FVV. Inoltre, proponiamo una strategia adattiva di aggiunta delle 3DGs per gestire gli oggetti emergenti nelle scene dinamiche. Gli esperimenti dimostrano che 3DGStream raggiunge prestazioni competitive in termini di velocità di rendering, qualità dell'immagine, tempo di addestramento e archiviazione del modello rispetto ai metodi all'avanguardia.

English

Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.

3DGStream: Addestramento in Tempo Reale di Gaussiane 3D per lo Streaming Efficiente di Video Foto-Realistici a Visualizzazione Libera

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

Abstract

Support