Generatieve Neurale Videocompressie via Videodiffusieprior
Generative Neural Video Compression via Video Diffusion Prior
December 4, 2025
Auteurs: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI
Samenvatting
Wij presenteren GNVC-VD, het eerste DiT-gebaseerde generatieve neurale videocompressie-framework dat is opgebouwd vanuit een geavanceerd videogeneratiefoundationmodel, waarbij spatio-temporele latente compressie en generatieve verfijning op sequentieniveau worden verenigd binnen een enkele codec. Bestaande perceptuele codecs steunen voornamelijk op vooraf getrainde generatieve beeld-priors om hoogfrequente details te herstellen, maar hun framegewijze aard mist temporele modellering en leidt onvermijdelijk tot perceptuele flikkering. Om dit aan te pakken, introduceert GNVC-VD een uniforme flow-matching latent refinement-module die gebruikmaakt van een videodiffusietransformer om intra- en inter-frame latenten gezamenlijk te verbeteren via ruisvermindering op sequentieniveau, waardoor consistente spatio-temporele details worden gegarandeerd. In plaats van ruis te verwijderen vanuit puur Gaussische ruis zoals bij videogeneratie, initialiseert GNVC-VD de verfijning vanuit gedecodeerde spatio-temporele latenten en leert het een correctieterm die de diffusie-prior aanpast aan compressie-gerelateerde degradatie. Een conditioneringsadapter injecteert verder compressiebewuste aanwijzingen in de tussenliggende DiT-lagen, waardoor effectieve artefactverwijdering mogelijk wordt terwijl temporele coherentie onder extreme bitrate-beperkingen behouden blijft. Uitgebreide experimenten tonen aan dat GNVC-VD zowel traditionele als geleerde codecs overtreft in perceptuele kwaliteit en de flikkerartefacten die in eerdere generatieve benaderingen hardnekkig aanwezig zijn, significant vermindert, zelfs onder 0.01 bpp. Dit onderstreept de belofte van het integreren van video-native generatieve priors in neurale codecs voor perceptuele videocompressie van de volgende generatie.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.