ChatPaper.aiChatPaper

VeGaS: ビデオガウスシアンスプラッティング

VeGaS: Video Gaussian Splatting

November 17, 2024
著者: Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil, Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
cs.AI

要旨

暗黙のニューラル表現(INRs)は、ニューラルネットワークを使用して離散データを連続関数として近似します。ビデオデータの文脈では、これらのモデルは、ピクセルの座標とフレームの発生時刻(またはインデックス)をRGB色値に変換するために利用できます。INRsは効果的な圧縮を可能にしますが、編集目的には適していません。1つの潜在的な解決策は、Video Gaussian Representation(VGR)などの3Dガウススプラッティング(3DGS)ベースのモデルを使用することです。これは、ビデオを多数の3Dガウス分布としてエンコードでき、編集を含む多数のビデオ処理操作に適用できます。ただし、この場合、変更の容量は限られた基本的な変換セットに制約されます。この問題に対処するために、私たちはVideo Gaussian Splatting(VeGaS)モデルを導入します。これにより、ビデオデータのリアルな変更が可能になります。VeGaSを構築するために、ビデオストリーム内の非線形ダイナミクスを捉えるために設計された新しいフォールデッドガウス分布のファミリーを提案します。また、連続するフレームを2Dガウス分布としてモデル化します。私たちの実験は、VeGaSがフレーム再構築タスクで最先端のソリューションを上回り、ビデオデータのリアルな変更を可能にすることを示しています。コードは次で入手できます:https://github.com/gmum/VeGaS。
English
Implicit Neural Representations (INRs) employ neural networks to approximate discrete data as continuous functions. In the context of video data, such models can be utilized to transform the coordinates of pixel locations along with frame occurrence times (or indices) into RGB color values. Although INRs facilitate effective compression, they are unsuitable for editing purposes. One potential solution is to use a 3D Gaussian Splatting (3DGS) based model, such as the Video Gaussian Representation (VGR), which is capable of encoding video as a multitude of 3D Gaussians and is applicable for numerous video processing operations, including editing. Nevertheless, in this case, the capacity for modification is constrained to a limited set of basic transformations. To address this issue, we introduce the Video Gaussian Splatting (VeGaS) model, which enables realistic modifications of video data. To construct VeGaS, we propose a novel family of Folded-Gaussian distributions designed to capture nonlinear dynamics in a video stream and model consecutive frames by 2D Gaussians obtained as respective conditional distributions. Our experiments demonstrate that VeGaS outperforms state-of-the-art solutions in frame reconstruction tasks and allows realistic modifications of video data. The code is available at: https://github.com/gmum/VeGaS.

Summary

AI-Generated Summary

PDF62November 19, 2024