ChatPaper.aiChatPaper

3DGStream: Treinamento em Tempo Real de Gaussianas 3D para Transmissão Eficiente de Vídeos Foto-Realistas com Visualização Livre

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

March 3, 2024
Autores: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI

Resumo

A construção de vídeos foto-realísticos de Visão Livre (Free-Viewpoint Videos - FVVs) de cenas dinâmicas a partir de vídeos multi-visão continua sendo um desafio significativo. Apesar dos avanços notáveis alcançados pelas técnicas atuais de renderização neural, esses métodos geralmente exigem sequências completas de vídeo para treinamento offline e não são capazes de renderização em tempo real. Para abordar essas limitações, introduzimos o 3DGStream, um método projetado para o streaming eficiente de FVVs de cenas dinâmicas do mundo real. Nosso método alcança reconstrução rápida por quadro em tempo real em menos de 12 segundos e renderização em tempo real a 200 FPS. Especificamente, utilizamos Gaussianas 3D (3DGs) para representar a cena. Em vez da abordagem ingênua de otimizar diretamente as 3DGs por quadro, empregamos um Cache de Transformação Neural (Neural Transformation Cache - NTC) compacto para modelar as translações e rotações das 3DGs, reduzindo significativamente o tempo de treinamento e o armazenamento necessário para cada quadro do FVV. Além disso, propomos uma estratégia adaptativa de adição de 3DGs para lidar com objetos emergentes em cenas dinâmicas. Experimentos demonstram que o 3DGStream alcança desempenho competitivo em termos de velocidade de renderização, qualidade de imagem, tempo de treinamento e armazenamento do modelo quando comparado com métodos state-of-the-art.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
PDF60December 15, 2024