ChatPaper.aiChatPaper

CMC-Bench : Vers un nouveau paradigme de compression des signaux visuels

CMC-Bench: Towards a New Paradigm of Visual Signal Compression

June 13, 2024
Auteurs: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI

Résumé

La compression d'images à très faible débit est un sujet complexe et exigeant. Avec le développement des modèles multimodaux de grande taille (LMMs), un paradigme de compression intermodale (CMC) de type Image-Texte-Image a émergé. Comparé aux codecs traditionnels, cette compression au niveau sémantique peut réduire la taille des données d'image à 0,1 % ou même moins, ce qui présente un fort potentiel d'applications. Cependant, la CMC présente certains défauts en termes de fidélité à l'image originale et de qualité perceptuelle. Pour résoudre ce problème, nous introduisons CMC-Bench, un benchmark évaluant la performance coopérative des modèles Image-vers-Texte (I2T) et Texte-vers-Image (T2I) pour la compression d'images. Ce benchmark couvre respectivement 18 000 et 40 000 images pour tester 6 modèles I2T et 12 modèles T2I dominants, incluant 160 000 scores de préférence subjective annotés par des experts humains. À des débits ultra-faibles, cet article démontre que la combinaison de certains modèles I2T et T2I surpasse les codecs de signal visuel les plus avancés ; parallèlement, il met en lumière les aspects où les LMMs peuvent être optimisés pour la tâche de compression. Nous encourageons les développeurs de LMMs à participer à ce test afin de promouvoir l'évolution des protocoles de codecs de signal visuel.
English
Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.

Summary

AI-Generated Summary

PDF52December 6, 2024