ChatPaper.aiChatPaper

PerCoV2: Mejora en la compresión perceptual de imágenes con tasas de bits ultra bajas mediante modelado jerárquico implícito de imágenes enmascaradas

PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

March 12, 2025
Autores: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI

Resumen

Presentamos PerCoV2, un novedoso y abierto sistema de compresión perceptual de imágenes de ultra baja tasa de bits diseñado para aplicaciones con limitaciones de ancho de banda y almacenamiento. Basándonos en trabajos previos de Careil et al., PerCoV2 extiende la formulación original al ecosistema de Stable Diffusion 3 y mejora la eficiencia de la codificación de entropía mediante el modelado explícito de la distribución discreta de hiper-latentes de la imagen. Para ello, realizamos una comparación exhaustiva de métodos autorregresivos recientes (VAR y MaskGIT) para el modelado de entropía y evaluamos nuestro enfoque en el benchmark a gran escala MSCOCO-30k. En comparación con trabajos anteriores, PerCoV2 (i) logra una mayor fidelidad de imagen con tasas de bits aún más bajas, manteniendo una calidad perceptual competitiva, (ii) incluye un modo de generación híbrido para ahorros adicionales en la tasa de bits, y (iii) está construido únicamente con componentes públicos. El código y los modelos entrenados se publicarán en https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image compression system designed for bandwidth- and storage-constrained applications. Building upon prior work by Careil et al., PerCoV2 extends the original formulation to the Stable Diffusion 3 ecosystem and enhances entropy coding efficiency by explicitly modeling the discrete hyper-latent image distribution. To this end, we conduct a comprehensive comparison of recent autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our approach on the large-scale MSCOCO-30k benchmark. Compared to previous work, PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while maintaining competitive perceptual quality, (ii) features a hybrid generation mode for further bit-rate savings, and (iii) is built solely on public components. Code and trained models will be released at https://github.com/Nikolai10/PerCoV2.

Summary

AI-Generated Summary

PDF32March 14, 2025