3DGStream: Echtzeit-Training von 3D-Gaußschen für effizientes Streaming fotorealistischer Freisicht-Videos
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
March 3, 2024
Autoren: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI
Zusammenfassung
Die Erstellung fotorealistischer Free-Viewpoint Videos (FVVs) dynamischer Szenen aus Multi-View-Videos bleibt eine herausfordernde Aufgabe. Trotz der bemerkenswerten Fortschritte, die durch aktuelle neuronale Rendering-Techniken erzielt wurden, benötigen diese Methoden in der Regel vollständige Videosequenzen für das Offline-Training und sind nicht in der Lage, Echtzeit-Rendering zu ermöglichen. Um diese Einschränkungen zu überwinden, stellen wir 3DGStream vor, eine Methode, die für das effiziente Streaming von FVVs realer dynamischer Szenen entwickelt wurde. Unsere Methode erreicht eine schnelle On-the-Fly-Rekonstruktion pro Frame innerhalb von 12 Sekunden und Echtzeit-Rendering mit 200 FPS. Insbesondere verwenden wir 3D-Gaussians (3DGs), um die Szene darzustellen. Anstatt den naiven Ansatz der direkten Optimierung von 3DGs pro Frame zu verfolgen, setzen wir einen kompakten Neural Transformation Cache (NTC) ein, um die Translationen und Rotationen von 3DGs zu modellieren, wodurch die Trainingszeit und der Speicherbedarf für jeden FVV-Frame erheblich reduziert werden. Darüber hinaus schlagen wir eine adaptive 3DG-Hinzufügungsstrategie vor, um neu auftauchende Objekte in dynamischen Szenen zu behandeln. Experimente zeigen, dass 3DGStream im Vergleich zu state-of-the-art Methoden wettbewerbsfähige Leistung in Bezug auf Rendering-Geschwindigkeit, Bildqualität, Trainingszeit und Modellspeicher erzielt.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes
from multi-view videos remains a challenging endeavor. Despite the remarkable
advancements achieved by current neural rendering techniques, these methods
generally require complete video sequences for offline training and are not
capable of real-time rendering. To address these constraints, we introduce
3DGStream, a method designed for efficient FVV streaming of real-world dynamic
scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12
seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D
Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of
directly optimizing 3DGs per-frame, we employ a compact Neural Transformation
Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing
the training time and storage required for each FVV frame. Furthermore, we
propose an adaptive 3DG addition strategy to handle emerging objects in dynamic
scenes. Experiments demonstrate that 3DGStream achieves competitive performance
in terms of rendering speed, image quality, training time, and model storage
when compared with state-of-the-art methods.