Генеративное нейросетевое сжатие видео с использованием априорной диффузионной модели
Generative Neural Video Compression via Video Diffusion Prior
December 4, 2025
Авторы: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI
Аннотация
Мы представляем GNVC-VD — первую систему генеративного нейросетевого сжатия видео на основе DiT (трансформеров диффузии), построенную на передовой фундаментальной модели генерации видео, в которой пространственно-временное латентное сжатие и генеративное уточнение на уровне последовательности объединены в рамках единого кодекса. Существующие перцептивные кодеки в основном полагаются на предобученные генеративные априорные распределения для изображений с целью восстановления высокочастотных деталей, но их покадровая природа лишена временного моделирования и неизбежно приводит к перцептивному мерцанию. Для решения этой проблемы GNVC-VD вводит унифицированный модуль латентного уточнения с согласованием потоков (flow-matching), который использует видео-диффузионный трансформер для совместного улучшения внутри- и межкадровых латентных представлений посредством шумоподавления на уровне последовательности, обеспечивая согласованные пространственно-временные детали. В отличие от генерации видео, где шумоподавление начинается с чистого гауссовского шума, GNVC-VD инициирует уточнение из декодированных пространственно-временных латентных переменных и изучает поправочный член, который адаптирует диффузионный априор к искажениям, вызванным сжатием. Адаптер кондиционирования дополнительно внедряет признаки, учитывающие сжатие, в промежуточные слои DiT, обеспечивая эффективное устранение артефактов при сохранении временной согласованности в условиях экстремально низких битрейтов. Многочисленные эксперименты показывают, что GNVC-VD превосходит как традиционные, так и обученные кодеки по перцептивному качеству и значительно уменьшает артефакты мерцания, сохраняющиеся в предыдущих генеративных подходах, даже при битрейте ниже 0.01 бит на пиксель, что подчеркивает перспективность интеграции видео-ориентированных генеративных априоров в нейросетевые кодеки для перцептивного сжатия видео следующего поколения.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.