CMC-Bench : Vers un nouveau paradigme de compression des signaux visuels
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
Auteurs: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
Résumé
La compression d'images à très faible débit est un sujet complexe et exigeant.
Avec le développement des modèles multimodaux de grande taille (LMMs), un paradigme de compression intermodale (CMC) de type Image-Texte-Image a émergé. Comparé aux codecs traditionnels, cette compression au niveau sémantique peut réduire la taille des données d'image à 0,1 % ou même moins, ce qui présente un fort potentiel d'applications. Cependant, la CMC présente certains défauts en termes de fidélité à l'image originale et de qualité perceptuelle. Pour résoudre ce problème, nous introduisons CMC-Bench, un benchmark évaluant la performance coopérative des modèles Image-vers-Texte (I2T) et Texte-vers-Image (T2I) pour la compression d'images. Ce benchmark couvre respectivement 18 000 et 40 000 images pour tester 6 modèles I2T et 12 modèles T2I dominants, incluant 160 000 scores de préférence subjective annotés par des experts humains. À des débits ultra-faibles, cet article démontre que la combinaison de certains modèles I2T et T2I surpasse les codecs de signal visuel les plus avancés ; parallèlement, il met en lumière les aspects où les LMMs peuvent être optimisés pour la tâche de compression. Nous encourageons les développeurs de LMMs à participer à ce test afin de promouvoir l'évolution des protocoles de codecs de signal visuel.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.Summary
AI-Generated Summary