Compresión Neural Generativa de Video mediante un Previo de Difusión de Video
Generative Neural Video Compression via Video Diffusion Prior
December 4, 2025
Autores: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI
Resumen
Presentamos GNVC-VD, el primer marco de compresión neuronal de vídeo generativo basado en DiT construido sobre un modelo fundacional avanzado de generación de vídeo, donde la compresión latente espacio-temporal y el refinamiento generativo a nivel de secuencia se unifican dentro de un único códec. Los códecs perceptuales existentes se basan principalmente en priores generativos de imagen preentrenados para restaurar detalles de alta frecuencia, pero su naturaleza frame a frame carece de modelado temporal y conduce inevitablemente a parpadeo perceptual. Para abordar esto, GNVC-VD introduce un módulo unificado de refinamiento latente por *flow-matching* que aprovecha un transformador de difusión de vídeo para mejorar conjuntamente los latentes intra e inter-frame mediante desruido a nivel de secuencia, garantizando detalles espacio-temporales consistentes. En lugar de desruir partiendo de ruido gaussiano puro como en la generación de vídeo, GNVC-VD inicializa el refinamiento a partir de latentes espacio-temporales decodificados y aprende un término de corrección que adapta el prior de difusión a la degradación inducida por la compresión. Un adaptador de condicionamiento inyecta además señales conscientes de la compresión en las capas intermedias del DiT, permitiendo una eliminación efectiva de artefactos mientras se mantiene la coherencia temporal bajo restricciones de bitrate extremas. Experimentos exhaustivos muestran que GNVC-VD supera a los códecs tanto tradicionales como basados en aprendizaje en calidad perceptual y reduce significativamente los artefactos de parpadeo que persisten en enfoques generativos previos, incluso por debajo de 0.01 bpp, destacando la promesa de integrar priores generativos nativos de vídeo en los códecs neuronales para la compresión de vídeo perceptual de próxima generación.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.