ChatPaper.aiChatPaper

CMC-Bench: Rumo a um Novo Paradigma de Compressão de Sinais Visuais

CMC-Bench: Towards a New Paradigm of Visual Signal Compression

June 13, 2024
Autores: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI

Resumo

A compressão de imagens com taxa de bits ultrabaixa é um tópico desafiador e exigente. Com o desenvolvimento dos Modelos Multimodais de Grande Escala (LMMs), surgiu um paradigma de Compressão de Modo Cruzado (CMC) do tipo Imagem-Texto-Imagem. Em comparação com os codecs tradicionais, essa compressão em nível semântico pode reduzir o tamanho dos dados de imagem para 0,1% ou até menos, o que possui um forte potencial de aplicação. No entanto, a CMC apresenta certas deficiências em relação à consistência com a imagem original e à qualidade perceptual. Para resolver esse problema, introduzimos o CMC-Bench, um benchmark do desempenho cooperativo de modelos de Imagem para Texto (I2T) e Texto para Imagem (T2I) para compressão de imagens. Esse benchmark abrange 18.000 e 40.000 imagens, respectivamente, para verificar 6 modelos I2T e 12 T2I principais, incluindo 160.000 pontuações de preferência subjetiva anotadas por especialistas humanos. Em taxas de bits ultrabaixas, este artigo demonstra que a combinação de alguns modelos I2T e T2I superou os codecs de sinal visual mais avançados; ao mesmo tempo, destaca onde os LMMs podem ser otimizados para a tarefa de compressão. Incentivamos os desenvolvedores de LMMs a participarem desse teste para promover a evolução dos protocolos de codec de sinal visual.
English
Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.
PDF52December 6, 2024