Compressione Neurale Generativa di Video tramite Priorità di Diffusione Video
Generative Neural Video Compression via Video Diffusion Prior
December 4, 2025
Autori: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI
Abstract
Presentiamo GNVC-VD, il primo framework di compressione neurale video generativa basato su DiT, costruito su un modello base avanzato per la generazione video, in cui la compressione latente spazio-temporale e l'affinamento generativo a livello di sequenza sono unificati all'interno di un singolo codec. I codec percettivi esistenti si basano principalmente su priori generativi di immagini pre-addestrati per ripristinare i dettagli ad alta frequenza, ma la loro natura frame-by-frame è carente nella modellazione temporale e porta inevitabilmente a sfarfallii percettivi. Per affrontare questo problema, GNVC-VD introduce un modulo unificato di affinamento latente basato sul flusso che sfrutta un trasformatore di diffusione video per migliorare congiuntamente i latenti intra-frame e inter-frame attraverso un processo di denoising a livello di sequenza, garantendo dettagli spazio-temporali coerenti. Invece di partire da rumore Gaussiano puro come nella generazione video, GNVC-VD inizializza l'affinamento partendo da latenti spazio-temporali decodificati e apprende un termine di correzione che adatta il priori di diffusione al degrado indotto dalla compressione. Un adattatore di condizionamento inietta ulteriori segnali consapevoli della compressione negli strati intermedi del DiT, consentendo una rimozione efficace degli artefatti mantenendo al contempo la coerenza temporale sotto vincoli di bitrate estremi. Esperimenti estensivi dimostrano che GNVC-VD supera sia i codec tradizionali che quelli appresi in termini di qualità percettiva e riduce significativamente gli artefatti di sfarfallio che persistono negli approcci generativi precedenti, anche al di sotto di 0,01 bpp, evidenziando la promessa di integrare priori generativi nativi per il video nei codec neurali per la compressione video percettiva di prossima generazione.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.