VeGaS: Espalhamento Gaussiano de Vídeo

Resumo

Representações Neurais Implícitas (INRs) empregam redes neurais para aproximar dados discretos como funções contínuas. No contexto de dados de vídeo, tais modelos podem ser utilizados para transformar as coordenadas das localizações de pixels juntamente com os tempos (ou índices) de ocorrência de quadros em valores de cor RGB. Embora as INRs facilitem a compressão eficaz, elas não são adequadas para fins de edição. Uma solução potencial é utilizar um modelo baseado em Splatting Gaussiano 3D (3DGS), como a Representação Gaussiana de Vídeo (VGR), que é capaz de codificar vídeo como uma multiplicidade de Gaussianas 3D e é aplicável para diversas operações de processamento de vídeo, incluindo edição. No entanto, neste caso, a capacidade de modificação é limitada a um conjunto restrito de transformações básicas. Para resolver esse problema, apresentamos o modelo Video Gaussian Splatting (VeGaS), que permite modificações realistas de dados de vídeo. Para construir o VeGaS, propomos uma nova família de distribuições Gaussianas Dobradas projetadas para capturar dinâmicas não lineares em um fluxo de vídeo e modelar quadros consecutivos por meio de Gaussianas 2D obtidas como distribuições condicionais respectivas. Nossos experimentos demonstram que o VeGaS supera as soluções de ponta em tarefas de reconstrução de quadros e permite modificações realistas de dados de vídeo. O código está disponível em: https://github.com/gmum/VeGaS.

English

Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

VeGaS: Espalhamento Gaussiano de Vídeo

VeGaS: Video Gaussian Splatting

Resumo

Support