PerCoV2: Compressão Perceptual de Imagens com Taxa de Bits Ultrabaixa Aprimorada com Modelagem de Imagem Mascarada Hierárquica Implícita
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
March 12, 2025
Autores: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI
Resumo
Apresentamos o PerCoV2, um novo e aberto sistema de compressão perceptual de imagens com taxa de bits ultrabaixa, projetado para aplicações com restrições de largura de banda e armazenamento. Baseando-se em trabalhos anteriores de Careil et al., o PerCoV2 estende a formulação original para o ecossistema do Stable Diffusion 3 e melhora a eficiência da codificação de entropia ao modelar explicitamente a distribuição discreta de hiper-latentes da imagem. Para isso, realizamos uma comparação abrangente de métodos autoregressivos recentes (VAR e MaskGIT) para modelagem de entropia e avaliamos nossa abordagem no benchmark em larga escala MSCOCO-30k. Em comparação com trabalhos anteriores, o PerCoV2 (i) alcança maior fidelidade de imagem em taxas de bits ainda mais baixas, mantendo qualidade perceptual competitiva, (ii) apresenta um modo de geração híbrida para economias adicionais de taxa de bits e (iii) é construído exclusivamente com componentes públicos. O código e os modelos treinados serão disponibilizados em https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image
compression system designed for bandwidth- and storage-constrained
applications. Building upon prior work by Careil et al., PerCoV2 extends the
original formulation to the Stable Diffusion 3 ecosystem and enhances entropy
coding efficiency by explicitly modeling the discrete hyper-latent image
distribution. To this end, we conduct a comprehensive comparison of recent
autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our
approach on the large-scale MSCOCO-30k benchmark. Compared to previous work,
PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while
maintaining competitive perceptual quality, (ii) features a hybrid generation
mode for further bit-rate savings, and (iii) is built solely on public
components. Code and trained models will be released at
https://github.com/Nikolai10/PerCoV2.Summary
AI-Generated Summary