ChatPaper.aiChatPaper

3DGStream: フォトリアルな自由視点動画の効率的なストリーミングのための3Dガウシアンのオンザフライトレーニング

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

March 3, 2024
著者: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI

要旨

マルチビュービデオから動的シーンのフォトリアリスティックな自由視点映像(Free-Viewpoint Videos, FVVs)を構築することは、依然として困難な課題である。現在のニューラルレンダリング技術によって達成された顕著な進歩にもかかわらず、これらの手法は一般的にオフライン学習のために完全なビデオシーケンスを必要とし、リアルタイムレンダリングが不可能である。これらの制約に対処するため、我々は3DGStreamを提案する。この手法は、実世界の動的シーンにおける効率的なFVVストリーミングを目的として設計されている。我々の手法は、12秒以内でのフレームごとの高速なオンザフライ再構築と、200 FPSでのリアルタイムレンダリングを実現する。具体的には、シーンを表現するために3Dガウシアン(3DGs)を利用する。フレームごとに3DGsを直接最適化する単純なアプローチではなく、コンパクトなニューラル変換キャッシュ(Neural Transformation Cache, NTC)を使用して3DGsの並進と回転をモデル化し、各FVVフレームに必要な学習時間とストレージを大幅に削減する。さらに、動的シーンにおける新たなオブジェクトを処理するための適応型3DG追加戦略を提案する。実験結果から、3DGStreamはレンダリング速度、画質、学習時間、モデルストレージの点で、最先端の手法と比較して競争力のある性能を達成することが示されている。
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
PDF60December 15, 2024