ChatPaper.aiChatPaper

生成的神経ネットワークによる動画圧縮:動画拡散事前分布を活用して

Generative Neural Video Compression via Video Diffusion Prior

December 4, 2025
著者: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI

要旨

本論文では、高度なビデオ生成基盤モデルに基づく初のDiTベース生成型ニューラルビデオ圧縮フレームワーク「GNVC-VD」を提案する。本フレームワークでは、時空間的潜在圧縮とシーケンスレベルでの生成的リファインメントが単一のコーデック内に統合されている。既存の知覚コーデックは、高周波詳細を復元するために事前学習済み画像生成事前分布に依存しているが、それらのフレーム単位の性質は時間的モデリングを欠き、知覚的なフリッカーを不可避的に生じさせる。この問題に対処するため、GNVC-VDは、ビデオ拡散Transformerを利用してシーケンスレベルでのノイズ除去によりフレーム内及びフレーム間の潜在表現を共同で強化し、一貫した時空間的詳細を保証する、統一的なフローマッチング潜在リファインメントモジュールを導入する。ビデオ生成のように純粋なガウスノイズからノイズ除去を行うのではなく、GNVC-VDは復号化された時空間的潜在表現からリファインメントを開始し、拡散事前分布を圧縮による劣化に適応させる補正項を学習する。さらに、条件付けアダプタが圧縮を意識した手がかりを中間のDiT層に注入し、極端な低ビットレート制約下でも時間的一貫性を維持しつつ、効果的なアーティファクト除去を実現する。広範な実験により、GNVC-VDが従来のコーデック及び学習ベースコーデックを知覚品質で凌駕し、従来の生成的アプローチに残存するフリッカーアーティファクトを0.01 bpp以下でも大幅に低減することを示し、次世代の知覚的ビデオ圧縮に向けてビデオに特化した生成的事前分布をニューラルコーデックに統合する可能性を明らかにする。
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.
PDF51December 6, 2025