Compressão Neural Generativa de Vídeo via Prior de Difusão de Vídeo
Generative Neural Video Compression via Video Diffusion Prior
December 4, 2025
Autores: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI
Resumo
Apresentamos o GNVC-VD, o primeiro framework de compressão neural generativa de vídeo baseado em DiT, construído sobre um modelo de base avançado para geração de vídeo, no qual a compressão latente espaço-temporal e o refinamento generativo a nível de sequência são unificados dentro de um único codec. Os codecs perceptivos existentes dependem principalmente de priors generativos de imagem pré-treinados para restaurar detalhes de alta frequência, mas a sua natureza frame a frame carece de modelação temporal e leva inevitavelmente a cintilações perceptivas. Para resolver isto, o GNVC-VD introduz um módulo unificado de refinamento latente por *flow-matching* que aproveita um transformador de difusão de vídeo para melhorar conjuntamente os latentes intra e inter-frame através de uma desruídos a nível de sequência, garantindo detalhes espaço-temporais consistentes. Em vez de realizar a desruídos a partir de ruído Gaussiano puro, como na geração de vídeo, o GNVC-VD inicializa o refinamento a partir de latentes espaço-temporais decodificados e aprende um termo de correção que adapta o prior de difusão à degradação induzida pela compressão. Um adaptador de condicionamento injeta ainda mais pistas conscientes da compressão nas camadas intermédias do DiT, permitindo uma remoção eficaz de artefactos enquanto mantém a coerência temporal sob restrições de bitrate extremas. Experiências extensivas mostram que o GNVC-VD supera os codecs tradicionais e os baseados em aprendizagem automática em qualidade perceptual e reduz significativamente os artefactos de cintilação que persistem em abordagens generativas anteriores, mesmo abaixo de 0,01 bpp, destacando a promessa de integrar priors generativos nativos de vídeo em codecs neurais para a próxima geração de compressão de vídeo perceptual.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.