PerCoV2 : Compression d'images perceptuelle à très faible débit améliorée avec modélisation hiérarchique implicite d'images masquées
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
March 12, 2025
Auteurs: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI
Résumé
Nous présentons PerCoV2, un nouveau système ouvert de compression d'images perceptuelles à très faible débit, conçu pour des applications contraintes en bande passante et en stockage. S'appuyant sur les travaux antérieurs de Careil et al., PerCoV2 étend la formulation originale à l'écosystème Stable Diffusion 3 et améliore l'efficacité du codage entropique en modélisant explicitement la distribution discrète des hyper-latents d'image. À cette fin, nous menons une comparaison approfondie des méthodes autorégressives récentes (VAR et MaskGIT) pour la modélisation entropique et évaluons notre approche sur le benchmark à grande échelle MSCOCO-30k. Par rapport aux travaux précédents, PerCoV2 (i) atteint une fidélité d'image plus élevée à des débits encore plus faibles tout en maintenant une qualité perceptuelle compétitive, (ii) propose un mode de génération hybride pour des économies supplémentaires de débit, et (iii) est entièrement construit à partir de composants publics. Le code et les modèles entraînés seront disponibles à l'adresse https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image
compression system designed for bandwidth- and storage-constrained
applications. Building upon prior work by Careil et al., PerCoV2 extends the
original formulation to the Stable Diffusion 3 ecosystem and enhances entropy
coding efficiency by explicitly modeling the discrete hyper-latent image
distribution. To this end, we conduct a comprehensive comparison of recent
autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our
approach on the large-scale MSCOCO-30k benchmark. Compared to previous work,
PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while
maintaining competitive perceptual quality, (ii) features a hybrid generation
mode for further bit-rate savings, and (iii) is built solely on public
components. Code and trained models will be released at
https://github.com/Nikolai10/PerCoV2.Summary
AI-Generated Summary