ChatPaper.aiChatPaper

VeGaS: Sobreimpresión Gaussiana de Video

VeGaS: Video Gaussian Splatting

November 17, 2024
Autores: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI

Resumen

Las Representaciones Neuronales Implícitas (INRs, por sus siglas en inglés) emplean redes neuronales para aproximar datos discretos como funciones continuas. En el contexto de datos de video, dichos modelos pueden ser utilizados para transformar las coordenadas de ubicaciones de píxeles junto con los tiempos de ocurrencia de fotogramas (o índices) en valores de color RGB. Aunque las INRs facilitan una compresión efectiva, no son adecuadas para propósitos de edición. Una solución potencial es utilizar un modelo basado en Splatting Gaussiano 3D (3DGS), como la Representación Gaussiana de Video (VGR), que es capaz de codificar video como una multitud de Gaussianas 3D y es aplicable para numerosas operaciones de procesamiento de video, incluida la edición. Sin embargo, en este caso, la capacidad de modificación está limitada a un conjunto reducido de transformaciones básicas. Para abordar este problema, presentamos el modelo de Splatting Gaussiano de Video (VeGaS), que permite modificaciones realistas de datos de video. Para construir VeGaS, proponemos una nueva familia de distribuciones Gaussianas Plegadas diseñadas para capturar dinámicas no lineales en un flujo de video y modelar fotogramas consecutivos mediante Gaussianas 2D obtenidas como distribuciones condicionales respectivas. Nuestros experimentos demuestran que VeGaS supera a las soluciones de vanguardia en tareas de reconstrucción de fotogramas y permite modificaciones realistas de datos de video. El código está disponible en: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

Summary

AI-Generated Summary

PDF62November 19, 2024