Espalhamento de Características Gaussianas no Espaço-Tempo para Síntese de Visão Dinâmica em Tempo Real
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis
December 28, 2023
Autores: Zhan Li, Zhang Chen, Zhong Li, Yi Xu
cs.AI
Resumo
A síntese de novas visões de cenas dinâmicas tem sido um problema intrigante, porém desafiador. Apesar dos avanços recentes, alcançar simultaneamente resultados fotorealísticos de alta resolução, renderização em tempo real e armazenamento compacto continua sendo uma tarefa formidável. Para enfrentar esses desafios, propomos o Spacetime Gaussian Feature Splatting como uma nova representação de cenas dinâmicas, composta por três componentes fundamentais. Primeiro, formulamos Spacetime Gaussians expressivos ao aprimorar Gaussians 3D com opacidade temporal e movimento/rotação paramétricos. Isso permite que os Spacetime Gaussians capturem conteúdo estático, dinâmico e transitório em uma cena. Segundo, introduzimos a renderização de características splatadas, que substitui harmônicos esféricos por características neurais. Essas características facilitam a modelagem da aparência dependente de visão e tempo, mantendo um tamanho reduzido. Terceiro, aproveitamos a orientação do erro de treinamento e da profundidade aproximada para amostrar novos Gaussians em áreas que são difíceis de convergir com pipelines existentes. Experimentos em vários conjuntos de dados reais estabelecidos demonstram que nosso método alcança qualidade e velocidade de renderização de ponta, mantendo o armazenamento compacto. Em resolução 8K, nossa versão leve do modelo pode renderizar a 60 FPS em uma GPU Nvidia RTX 4090.
English
Novel view synthesis of dynamic scenes has been an intriguing yet challenging
problem. Despite recent advancements, simultaneously achieving high-resolution
photorealistic results, real-time rendering, and compact storage remains a
formidable task. To address these challenges, we propose Spacetime Gaussian
Feature Splatting as a novel dynamic scene representation, composed of three
pivotal components. First, we formulate expressive Spacetime Gaussians by
enhancing 3D Gaussians with temporal opacity and parametric motion/rotation.
This enables Spacetime Gaussians to capture static, dynamic, as well as
transient content within a scene. Second, we introduce splatted feature
rendering, which replaces spherical harmonics with neural features. These
features facilitate the modeling of view- and time-dependent appearance while
maintaining small size. Third, we leverage the guidance of training error and
coarse depth to sample new Gaussians in areas that are challenging to converge
with existing pipelines. Experiments on several established real-world datasets
demonstrate that our method achieves state-of-the-art rendering quality and
speed, while retaining compact storage. At 8K resolution, our lite-version
model can render at 60 FPS on an Nvidia RTX 4090 GPU.