VeGaS: Espalhamento Gaussiano de Vídeo
VeGaS: Video Gaussian Splatting
November 17, 2024
Autores: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
Resumo
Representações Neurais Implícitas (INRs) empregam redes neurais para aproximar dados discretos como funções contínuas. No contexto de dados de vídeo, tais modelos podem ser utilizados para transformar as coordenadas das localizações de pixels juntamente com os tempos (ou índices) de ocorrência de quadros em valores de cor RGB. Embora as INRs facilitem a compressão eficaz, elas não são adequadas para fins de edição. Uma solução potencial é utilizar um modelo baseado em Splatting Gaussiano 3D (3DGS), como a Representação Gaussiana de Vídeo (VGR), que é capaz de codificar vídeo como uma multiplicidade de Gaussianas 3D e é aplicável para diversas operações de processamento de vídeo, incluindo edição. No entanto, neste caso, a capacidade de modificação é limitada a um conjunto restrito de transformações básicas. Para resolver esse problema, apresentamos o modelo Video Gaussian Splatting (VeGaS), que permite modificações realistas de dados de vídeo. Para construir o VeGaS, propomos uma nova família de distribuições Gaussianas Dobradas projetadas para capturar dinâmicas não lineares em um fluxo de vídeo e modelar quadros consecutivos por meio de Gaussianas 2D obtidas como distribuições condicionais respectivas. Nossos experimentos demonstram que o VeGaS supera as soluções de ponta em tarefas de reconstrução de quadros e permite modificações realistas de dados de vídeo. O código está disponível em: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary