ChatPaper.aiChatPaper

PerCoV2: 계층적 마스크 이미지 모델링을 통한 초저비트율 지각적 이미지 압축 기술 개선

PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

March 12, 2025
저자: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI

초록

저희는 대역폭과 저장 공간이 제한된 애플리케이션을 위해 설계된 새로운 오픈 소스 초저비트레이트 지각 이미지 압축 시스템인 PerCoV2를 소개합니다. PerCoV2는 Careil 등의 선행 연구를 기반으로, 원래의 공식을 Stable Diffusion 3 생태계로 확장하고 이산 초잠재 이미지 분포를 명시적으로 모델링하여 엔트로피 코딩 효율을 향상시켰습니다. 이를 위해 최근의 자기회귀 방법(VAR 및 MaskGIT)을 엔트로피 모델링에 대해 포괄적으로 비교하고, 대규모 MSCOCO-30k 벤치마크에서 우리의 접근 방식을 평가했습니다. 이전 연구와 비교하여 PerCoV2는 (i) 더 낮은 비트레이트에서도 더 높은 이미지 충실도를 유지하면서 경쟁력 있는 지각 품질을 달성하고, (ii) 추가 비트레이트 절약을 위한 하이브리드 생성 모드를 제공하며, (iii) 전적으로 공개된 구성 요소로 구축되었습니다. 코드와 훈련된 모델은 https://github.com/Nikolai10/PerCoV2에서 공개될 예정입니다.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image compression system designed for bandwidth- and storage-constrained applications. Building upon prior work by Careil et al., PerCoV2 extends the original formulation to the Stable Diffusion 3 ecosystem and enhances entropy coding efficiency by explicitly modeling the discrete hyper-latent image distribution. To this end, we conduct a comprehensive comparison of recent autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our approach on the large-scale MSCOCO-30k benchmark. Compared to previous work, PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while maintaining competitive perceptual quality, (ii) features a hybrid generation mode for further bit-rate savings, and (iii) is built solely on public components. Code and trained models will be released at https://github.com/Nikolai10/PerCoV2.

Summary

AI-Generated Summary

PDF32March 14, 2025