PerCoV2: Усовершенствованное ультранизкобитное перцептуальное сжатие изображений с использованием неявного иерархического маскированного моделирования изображений
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
March 12, 2025
Авторы: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI
Аннотация
Мы представляем PerCoV2, новую и открытую систему ультранизкобитового перцептуального сжатия изображений, разработанную для приложений с ограниченной пропускной способностью и объемом памяти. Основываясь на предыдущей работе Careil и др., PerCoV2 расширяет исходную формулировку для экосистемы Stable Diffusion 3 и повышает эффективность энтропийного кодирования за счет явного моделирования дискретного распределения гипер-латентных изображений. С этой целью мы проводим всестороннее сравнение современных авторегрессивных методов (VAR и MaskGIT) для моделирования энтропии и оцениваем наш подход на крупномасштабном бенчмарке MSCOCO-30k. По сравнению с предыдущими работами, PerCoV2 (i) достигает более высокой точности изображений при еще более низких битовых скоростях, сохраняя при этом конкурентоспособное перцептуальное качество, (ii) включает гибридный режим генерации для дополнительного снижения битовой скорости и (iii) построен исключительно на общедоступных компонентах. Код и обученные модели будут опубликованы на https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image
compression system designed for bandwidth- and storage-constrained
applications. Building upon prior work by Careil et al., PerCoV2 extends the
original formulation to the Stable Diffusion 3 ecosystem and enhances entropy
coding efficiency by explicitly modeling the discrete hyper-latent image
distribution. To this end, we conduct a comprehensive comparison of recent
autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our
approach on the large-scale MSCOCO-30k benchmark. Compared to previous work,
PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while
maintaining competitive perceptual quality, (ii) features a hybrid generation
mode for further bit-rate savings, and (iii) is built solely on public
components. Code and trained models will be released at
https://github.com/Nikolai10/PerCoV2.Summary
AI-Generated Summary