ChatPaper.aiChatPaper

VeGaS: Видео Гауссово размазывание

VeGaS: Video Gaussian Splatting

November 17, 2024
Авторы: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI

Аннотация

Неявные нейронные представления (INR) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат пикселей вместе с временем (или индексами) появления кадров в значения цвета RGB. Хотя INR облегчают эффективное сжатие, они не подходят для редактирования. Одно из потенциальных решений - использовать модель на основе трехмерного гауссовского сплетения (3DGS), такую как Видео Гауссовское Представление (VGR), способную кодировать видео как множество трехмерных гауссов и применимую для множества операций по обработке видео, включая редактирование. Тем не менее, в данном случае возможность модификации ограничена ограниченным набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Сплетения (VeGaS), позволяющую реалистичные модификации видеоданных. Для построения VeGaS мы предлагаем новое семейство распределений Свернутых Гауссов, разработанных для захвата нелинейной динамики в потоке видео и моделирования последовательных кадров с помощью двумерных гауссов, полученных в качестве соответствующих условных распределений. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистичные модификации видеоданных. Код доступен по ссылке: https://github.com/gmum/VeGaS.
English
Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

Summary

AI-Generated Summary

PDF62November 19, 2024