Compression neuronale générative de vidéos par l'utilisation d'un préalable de diffusion vidéo
Generative Neural Video Compression via Video Diffusion Prior
December 4, 2025
papers.authors: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI
papers.abstract
Nous présentons GNVC-VD, le premier cadre de compression vidéo neuronale générative basé sur DiT, construit sur un modèle de fondation avancé pour la génération vidéo, où la compression latente spatio-temporelle et le raffinement génératif au niveau de la séquence sont unifiés au sein d'un même codec. Les codecs perceptuels existants reposent principalement sur des préalables génératifs d'image pré-entraînés pour restaurer les détails haute fréquence, mais leur nature image par image manque de modélisation temporelle et conduit inévitablement à un scintillement perceptuel. Pour y remédier, GNVC-VD introduit un module unifié de raffinement latent par « flow-matching » qui exploite un transformeur de diffusion vidéo pour améliorer conjointement les latences intra et inter-images via un débruitage au niveau de la séquence, garantissant des détails spatio-temporels cohérents. Au lieu de débruiter à partir d'un bruit gaussien pur comme dans la génération vidéo, GNVC-VD initialise le raffinement à partir de latences spatio-temporelles décodées et apprend un terme de correction qui adapte le préalable de diffusion à la dégradation induite par la compression. Un adaptateur de conditionnement injecte en outre des indices liés à la compression dans les couches intermédiaires du DiT, permettant une suppression efficace des artéfacts tout en maintenant la cohérence temporelle sous des contraintes de débit binaire extrêmes. Des expériences approfondies montrent que GNVC-VD surpasse les codecs traditionnels et appris en qualité perceptuelle et réduit significativement les artéfacts de scintillement qui persistent dans les approches génératives antérieures, même en dessous de 0,01 bpp, soulignant la promesse d'intégrer des préalables génératifs natifs de la vidéo dans les codecs neuronaux pour la compression vidéo perceptuelle de nouvelle génération.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.