PerCoV2: Verbeterde ultra-lage bitrate perceptuele beeldcompressie met impliciete hiërarchische gemaskeerde beeldmodellering
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
March 12, 2025
Auteurs: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI
Samenvatting
We introduceren PerCoV2, een nieuw en open ultra-laag bitrate perceptueel beeldcompressiesysteem dat is ontworpen voor toepassingen met beperkte bandbreedte en opslag. Voortbouwend op eerder werk van Careil et al., breidt PerCoV2 de oorspronkelijke formulering uit naar het Stable Diffusion 3-ecosysteem en verbetert het de efficiëntie van entropiecodering door expliciet de discrete hyper-latente beeldverdeling te modelleren. Hiertoe voeren we een uitgebreide vergelijking uit van recente autoregressieve methoden (VAR en MaskGIT) voor entropiemodellering en evalueren we onze aanpak op de grootschalige MSCOCO-30k benchmark. In vergelijking met eerder werk behaalt PerCoV2 (i) een hogere beeldgetrouwheid bij nog lagere bitrates terwijl het concurrerende perceptuele kwaliteit behoudt, (ii) beschikt het over een hybride generatiemodus voor verdere bitratebesparingen, en (iii) is het uitsluitend gebouwd op publieke componenten. Code en getrainde modellen zullen worden vrijgegeven op https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image
compression system designed for bandwidth- and storage-constrained
applications. Building upon prior work by Careil et al., PerCoV2 extends the
original formulation to the Stable Diffusion 3 ecosystem and enhances entropy
coding efficiency by explicitly modeling the discrete hyper-latent image
distribution. To this end, we conduct a comprehensive comparison of recent
autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our
approach on the large-scale MSCOCO-30k benchmark. Compared to previous work,
PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while
maintaining competitive perceptual quality, (ii) features a hybrid generation
mode for further bit-rate savings, and (iii) is built solely on public
components. Code and trained models will be released at
https://github.com/Nikolai10/PerCoV2.Summary
AI-Generated Summary