CMC-Bench: Направление на новый парадигму сжатия визуальных сигналов
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
Авторы: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
Аннотация
Сжатие изображений с ультранизкой битовой скоростью является сложной и требовательной темой. С развитием больших мультимодальных моделей (LMM), возник парадигма кросс-модального сжатия (CMC) изображений-текста-изображения. По сравнению с традиционными кодеками, это семантическое сжатие может уменьшить размер данных изображения до 0,1\% или даже меньше, что имеет большой потенциал для приложений. Однако CMC обладает определенными недостатками в согласованности с оригинальным изображением и восприятии качества. Для решения этой проблемы мы представляем CMC-Bench, бенчмарк совместной производительности моделей изображение-текст (I2T) и текст-изображение (T2I) для сжатия изображений. Этот бенчмарк охватывает 18 000 и 40 000 изображений соответственно для проверки 6 основных моделей I2T и 12 моделей T2I, включая 160 000 субъективных оценок предпочтений, аннотированных экспертами. На ультранизких битрейтах в данной статье доказывается, что комбинация некоторых моделей I2T и T2I превзошла самые передовые кодеки визуальных сигналов; в то же время подчеркивается, как LMM могут быть дополнительно оптимизированы для задачи сжатия. Мы призываем разработчиков LMM участвовать в этом тесте для содействия эволюции протоколов визуальных сигнальных кодеков.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.Summary
AI-Generated Summary