VeGaS: Видео Гауссово размазывание
VeGaS: Video Gaussian Splatting
November 17, 2024
Авторы: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI
Аннотация
Неявные нейронные представления (INR) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат пикселей вместе с временем (или индексами) появления кадров в значения цвета RGB. Хотя INR облегчают эффективное сжатие, они не подходят для редактирования. Одно из потенциальных решений - использовать модель на основе трехмерного гауссовского сплетения (3DGS), такую как Видео Гауссовское Представление (VGR), способную кодировать видео как множество трехмерных гауссов и применимую для множества операций по обработке видео, включая редактирование. Тем не менее, в данном случае возможность модификации ограничена ограниченным набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Сплетения (VeGaS), позволяющую реалистичные модификации видеоданных. Для построения VeGaS мы предлагаем новое семейство распределений Свернутых Гауссов, разработанных для захвата нелинейной динамики в потоке видео и моделирования последовательных кадров с помощью двумерных гауссов, полученных в качестве соответствующих условных распределений. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистичные модификации видеоданных. Код доступен по ссылке: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate
discrete data as continuous functions. In the context of video data, such
models can be utilized to transform the coordinates of pixel locations along
with frame occurrence times (or indices) into RGB color values. Although INRs
facilitate effective compression, they are unsuitable for editing purposes. One
potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such
as the Video Gaussian Representation (VGR), which is capable of encoding video
as a multitude of 3D Gaussians and is applicable for numerous video processing
operations, including editing. Nevertheless, in this case, the capacity for
modification is constrained to a limited set of basic transformations. To
address this issue, we introduce the Video Gaussian Splatting (VeGaS) model,
which enables realistic modifications of video data. To construct VeGaS, we
propose a novel family of Folded-Gaussian distributions designed to capture
nonlinear dynamics in a video stream and model consecutive frames by 2D
Gaussians obtained as respective conditional distributions. Our experiments
demonstrate that VeGaS outperforms state-of-the-art solutions in frame
reconstruction tasks and allows realistic modifications of video data. The code
is available at: https://github.com/gmum/VeGaS.Summary
AI-Generated Summary