ChatPaper.aiChatPaper

생성적 신경망 비디오 압축: 비디오 확산 프라이어를 활용하여

Generative Neural Video Compression via Video Diffusion Prior

December 4, 2025
저자: Qi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma
cs.AI

초록

본 논문에서는 고급 비디오 생성 기반 모델을 바탕으로 한 최초의 DiT 기반 생성형 신경망 비디오 압축 프레임워크인 GNVC-VD를 제안한다. 본 프레임워크는 시공간 잠재 변수 압축과 시퀀스 수준 생성적 정제가 단일 코덱 내에서 통합되어 있다. 기존의 지각적 코덱은 주로 사전 학습된 이미지 생성 사전 지식을 활용하여 고주파 디테일을 복원하지만, 이러한 프레임 단위 접근법은 시간적 모델링이 부족하여 필연적으로 지각적 깜빡임 현상을 유발한다. 이를 해결하기 위해 GNVC-VD는 비디오 디퓨전 트랜스포머를 활용하는 통합 흐름 매칭 잠재 변수 정제 모듈을 도입하여 시퀀스 수준 잡음 제거를 통해 프레임 내 및 프레임 간 잠재 변수를 공동으로 향상시키며, 일관된 시공간 디테일을 보장한다. 비디오 생성에서와 같이 순수 가우시안 잡음에서 시작하는 잡음 제거와 달리, GNVC-VD는 디코딩된 시공간 잠재 변수에서 정제 과정을 초기화하고, 확산 모델의 사전 지식을 압축으로 인한 열화에 적응시키는 보정 항을 학습한다. 추가로 조건화 어댑터가 중간 DiT 레이어에 압축 인지 정보를 주입하여 극한의 비트레이트 제약 하에서도 시간적 일관성을 유지하면서 효과적인 아티팩트 제거를 가능하게 한다. 광범위한 실험을 통해 GNVC-VD는 기존 전통적 및 학습 기반 코덱들을 지각적 품질에서 능가하며, 선행 생성형 접근법에서 지속되던 깜빡임 아티팩트를 0.01 bpp 미만의 극저율에서도 현저히 감소시킴을 입증하였다. 이는 차세대 지각적 비디오 압축을 위해 비디오 고유의 생성적 사전 지식을 신경망 코덱에 통합하는 접근법의 가능성을 강조한다.
English
We present GNVC-VD, the first DiT-based generative neural video compression framework built upon an advanced video generation foundation model, where spatio-temporal latent compression and sequence-level generative refinement are unified within a single codec. Existing perceptual codecs primarily rely on pre-trained image generative priors to restore high-frequency details, but their frame-wise nature lacks temporal modeling and inevitably leads to perceptual flickering. To address this, GNVC-VD introduces a unified flow-matching latent refinement module that leverages a video diffusion transformer to jointly enhance intra- and inter-frame latents through sequence-level denoising, ensuring consistent spatio-temporal details. Instead of denoising from pure Gaussian noise as in video generation, GNVC-VD initializes refinement from decoded spatio-temporal latents and learns a correction term that adapts the diffusion prior to compression-induced degradation. A conditioning adaptor further injects compression-aware cues into intermediate DiT layers, enabling effective artifact removal while maintaining temporal coherence under extreme bitrate constraints. Extensive experiments show that GNVC-VD surpasses both traditional and learned codecs in perceptual quality and significantly reduces the flickering artifacts that persist in prior generative approaches, even below 0.01 bpp, highlighting the promise of integrating video-native generative priors into neural codecs for next-generation perceptual video compression.
PDF51December 6, 2025