VeGaS: Sobreimpresión Gaussiana de Video
VeGaS: Video Gaussian Splatting
November 17, 2024
Autores: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
Resumen
Las Representaciones Neuronales Implícitas (INRs, por sus siglas en inglés) emplean redes neuronales para aproximar datos discretos como funciones continuas. En el contexto de datos de video, dichos modelos pueden ser utilizados para transformar las coordenadas de ubicaciones de píxeles junto con los tiempos de ocurrencia de fotogramas (o índices) en valores de color RGB. Aunque las INRs facilitan una compresión efectiva, no son adecuadas para propósitos de edición. Una solución potencial es utilizar un modelo basado en Splatting Gaussiano 3D (3DGS), como la Representación Gaussiana de Video (VGR), que es capaz de codificar video como una multitud de Gaussianas 3D y es aplicable para numerosas operaciones de procesamiento de video, incluida la edición. Sin embargo, en este caso, la capacidad de modificación está limitada a un conjunto reducido de transformaciones básicas. Para abordar este problema, presentamos el modelo de Splatting Gaussiano de Video (VeGaS), que permite modificaciones realistas de datos de video. Para construir VeGaS, proponemos una nueva familia de distribuciones Gaussianas Plegadas diseñadas para capturar dinámicas no lineales en un flujo de video y modelar fotogramas consecutivos mediante Gaussianas 2D obtenidas como distribuciones condicionales respectivas. Nuestros experimentos demuestran que VeGaS supera a las soluciones de vanguardia en tareas de reconstrucción de fotogramas y permite modificaciones realistas de datos de video. El código está disponible en: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary