ChatPaper.aiChatPaper

CMC-Bench: Направление на новый парадигму сжатия визуальных сигналов

CMC-Bench: Towards a New Paradigm of Visual Signal Compression

June 13, 2024
Авторы: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI

Аннотация

Сжатие изображений с ультранизкой битовой скоростью является сложной и требовательной темой. С развитием больших мультимодальных моделей (LMM), возник парадигма кросс-модального сжатия (CMC) изображений-текста-изображения. По сравнению с традиционными кодеками, это семантическое сжатие может уменьшить размер данных изображения до 0,1\% или даже меньше, что имеет большой потенциал для приложений. Однако CMC обладает определенными недостатками в согласованности с оригинальным изображением и восприятии качества. Для решения этой проблемы мы представляем CMC-Bench, бенчмарк совместной производительности моделей изображение-текст (I2T) и текст-изображение (T2I) для сжатия изображений. Этот бенчмарк охватывает 18 000 и 40 000 изображений соответственно для проверки 6 основных моделей I2T и 12 моделей T2I, включая 160 000 субъективных оценок предпочтений, аннотированных экспертами. На ультранизких битрейтах в данной статье доказывается, что комбинация некоторых моделей I2T и T2I превзошла самые передовые кодеки визуальных сигналов; в то же время подчеркивается, как LMM могут быть дополнительно оптимизированы для задачи сжатия. Мы призываем разработчиков LMM участвовать в этом тесте для содействия эволюции протоколов визуальных сигнальных кодеков.
English
Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.

Summary

AI-Generated Summary

PDF52December 6, 2024