ChatPaper.aiChatPaper

3DGStream: Real-time training van 3D Gaussians voor efficiënte streaming van foto-realistische free-viewpoint video's

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

March 3, 2024
Auteurs: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI

Samenvatting

Het construeren van foto-realistische Free-Viewpoint Videos (FVVs) van dynamische scènes uit multi-view video's blijft een uitdagende onderneming. Ondanks de opmerkelijke vooruitgang die is geboekt door huidige neurale renderingtechnieken, vereisen deze methoden over het algemeen complete videosequenties voor offline training en zijn ze niet in staat tot real-time rendering. Om deze beperkingen aan te pakken, introduceren we 3DGStream, een methode ontworpen voor efficiënte FVV-streaming van dynamische scènes uit de echte wereld. Onze methode bereikt snelle on-the-fly per-frame reconstructie binnen 12 seconden en real-time rendering met 200 FPS. Specifiek maken we gebruik van 3D Gaussians (3DGs) om de scène weer te geven. In plaats van de naïeve aanpak van het direct optimaliseren van 3DGs per frame, gebruiken we een compacte Neural Transformation Cache (NTC) om de translaties en rotaties van 3DGs te modelleren, wat de benodigde trainingstijd en opslag voor elk FVV-frame aanzienlijk vermindert. Bovendien stellen we een adaptieve 3DG-toevoegingsstrategie voor om opkomende objecten in dynamische scènes te verwerken. Experimenten tonen aan dat 3DGStream competitieve prestaties levert op het gebied van renderingsnelheid, beeldkwaliteit, trainingstijd en modelopslag in vergelijking met state-of-the-art methoden.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
PDF60December 15, 2024