ChatPaper.aiChatPaper

PerCoV2: Verbeterde ultra-lage bitrate perceptuele beeldcompressie met impliciete hiërarchische gemaskeerde beeldmodellering

PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

March 12, 2025
Auteurs: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI

Samenvatting

We introduceren PerCoV2, een nieuw en open ultra-laag bitrate perceptueel beeldcompressiesysteem dat is ontworpen voor toepassingen met beperkte bandbreedte en opslag. Voortbouwend op eerder werk van Careil et al., breidt PerCoV2 de oorspronkelijke formulering uit naar het Stable Diffusion 3-ecosysteem en verbetert het de efficiëntie van entropiecodering door expliciet de discrete hyper-latente beeldverdeling te modelleren. Hiertoe voeren we een uitgebreide vergelijking uit van recente autoregressieve methoden (VAR en MaskGIT) voor entropiemodellering en evalueren we onze aanpak op de grootschalige MSCOCO-30k benchmark. In vergelijking met eerder werk behaalt PerCoV2 (i) een hogere beeldgetrouwheid bij nog lagere bitrates terwijl het concurrerende perceptuele kwaliteit behoudt, (ii) beschikt het over een hybride generatiemodus voor verdere bitratebesparingen, en (iii) is het uitsluitend gebouwd op publieke componenten. Code en getrainde modellen zullen worden vrijgegeven op https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image compression system designed for bandwidth- and storage-constrained applications. Building upon prior work by Careil et al., PerCoV2 extends the original formulation to the Stable Diffusion 3 ecosystem and enhances entropy coding efficiency by explicitly modeling the discrete hyper-latent image distribution. To this end, we conduct a comprehensive comparison of recent autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our approach on the large-scale MSCOCO-30k benchmark. Compared to previous work, PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while maintaining competitive perceptual quality, (ii) features a hybrid generation mode for further bit-rate savings, and (iii) is built solely on public components. Code and trained models will be released at https://github.com/Nikolai10/PerCoV2.

Summary

AI-Generated Summary

PDF32March 14, 2025