CMC-Bench: Rumo a um Novo Paradigma de Compressão de Sinais Visuais
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
Autores: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
Resumo
A compressão de imagens com taxa de bits ultrabaixa é um tópico desafiador e exigente. Com o desenvolvimento dos Modelos Multimodais de Grande Escala (LMMs), surgiu um paradigma de Compressão de Modo Cruzado (CMC) do tipo Imagem-Texto-Imagem. Em comparação com os codecs tradicionais, essa compressão em nível semântico pode reduzir o tamanho dos dados de imagem para 0,1% ou até menos, o que possui um forte potencial de aplicação. No entanto, a CMC apresenta certas deficiências em relação à consistência com a imagem original e à qualidade perceptual. Para resolver esse problema, introduzimos o CMC-Bench, um benchmark do desempenho cooperativo de modelos de Imagem para Texto (I2T) e Texto para Imagem (T2I) para compressão de imagens. Esse benchmark abrange 18.000 e 40.000 imagens, respectivamente, para verificar 6 modelos I2T e 12 T2I principais, incluindo 160.000 pontuações de preferência subjetiva anotadas por especialistas humanos. Em taxas de bits ultrabaixas, este artigo demonstra que a combinação de alguns modelos I2T e T2I superou os codecs de sinal visual mais avançados; ao mesmo tempo, destaca onde os LMMs podem ser otimizados para a tarefa de compressão. Incentivamos os desenvolvedores de LMMs a participarem desse teste para promover a evolução dos protocolos de codec de sinal visual.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.