ChatPaper.aiChatPaper

Generative neuronale Videokompression mittels Video-Diffusions-Prior

Generative Neural Video Compression via Video Diffusion Prior

December 4, 2025
papers.authors: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI

papers.abstract

Wir stellen GNVC-VD vor, das erste auf einem DiT (Diffusion Transformer) basierende generative neuronale Videokompressionsframework, das auf einem fortschrittlichen Videogenerierungs-Foundation-Modell aufbaut. Dabei werden räumlich-zeitliche latente Kompression und generative Verfeinerung auf Sequenzebene innerhalb eines einzelnen Codecs vereint. Bestehende perzeptive Codecs stützen sich primär auf vortrainierte generative Bild-Priors zur Wiederherstellung hochfrequenter Details, doch deren bildweisenartige Natur mangelt es an zeitlicher Modellierung, was unweigerlich zu perzeptivem Flackern führt. Um dies zu adressieren, führt GNVC-VD ein vereinheitlichtes Flow-Matching-Modul zur latenten Verfeinerung ein, das einen Video-Diffusion-Transformer nutzt, um intra- und interframe-latente Repräsentationen gemeinsam durch sequenzweises Entrauschen zu verbessern und so konsistente räumlich-zeitliche Details sicherzustellen. Anstatt, wie bei der Videogenerierung, von reinem Gaußschen Rauschen aus zu entrauschen, initialisiert GNVC-VD die Verfeinerung aus decodierten räumlich-zeitlichen latenten Repräsentationen und lernt einen Korrekturterm, der den Diffusions-Prior an die kompressionsbedingte Verschlechterung anpasst. Ein Konditionierungs-Adapter injiziert weiterhin kompressionssensitive Hinweise in die intermediären DiT-Schichten, was eine effektive Artefaktentfernung ermöglicht und gleichzeitig die zeitliche Kohärenz unter extremen Bitratenbeschränkungen aufrechterhält. Umfangreiche Experimente zeigen, dass GNVC-VD sowohl traditionelle als auch lernbasierte Codecs in der perzeptiven Qualität übertrifft und die bei bisherigen generativen Ansätzen bestehenden Flackereffekte signifikant reduziert, selbst unterhalb von 0,01 bpp. Dies unterstreicht das Potenzial der Integration von video-nativen generativen Priors in neuronale Codecs für die perzeptive Videokompression der nächsten Generation.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.
PDF51December 6, 2025