PerCoV2: Miglioramento della compressione percettiva di immagini a bit-rate ultra-basso con modellazione implicita gerarchica di immagini mascherate
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
March 12, 2025
Autori: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI
Abstract
Presentiamo PerCoV2, un sistema innovativo e aperto per la compressione percettiva di immagini a bit-rate ultra-basso, progettato per applicazioni con vincoli di larghezza di banda e archiviazione. Basandosi sul lavoro precedente di Careil et al., PerCoV2 estende la formulazione originale all'ecosistema di Stable Diffusion 3 e migliora l'efficienza della codifica entropica modellando esplicitamente la distribuzione discreta degli iper-latenti delle immagini. A tal fine, conduciamo un confronto completo dei recenti metodi autoregressivi (VAR e MaskGIT) per la modellazione entropica e valutiamo il nostro approccio sul benchmark su larga scala MSCOCO-30k. Rispetto ai lavori precedenti, PerCoV2 (i) raggiunge una fedeltà dell'immagine più elevata a bit-rate ancora più bassi, mantenendo una qualità percettiva competitiva, (ii) include una modalità di generazione ibrida per ulteriori risparmi di bit-rate, e (iii) è costruito esclusivamente su componenti pubblici. Il codice e i modelli addestrati saranno rilasciati su https://github.com/Nikolai10/PerCoV2.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image
compression system designed for bandwidth- and storage-constrained
applications. Building upon prior work by Careil et al., PerCoV2 extends the
original formulation to the Stable Diffusion 3 ecosystem and enhances entropy
coding efficiency by explicitly modeling the discrete hyper-latent image
distribution. To this end, we conduct a comprehensive comparison of recent
autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our
approach on the large-scale MSCOCO-30k benchmark. Compared to previous work,
PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while
maintaining competitive perceptual quality, (ii) features a hybrid generation
mode for further bit-rate savings, and (iii) is built solely on public
components. Code and trained models will be released at
https://github.com/Nikolai10/PerCoV2.