ChatPaper.aiChatPaper

CMC-Bench: Verso un Nuovo Paradigma della Compressione dei Segnali Visivi

CMC-Bench: Towards a New Paradigm of Visual Signal Compression

June 13, 2024
Autori: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI

Abstract

La compressione di immagini a bitrate ultra-basso è un argomento impegnativo e di grande interesse. Con lo sviluppo dei Large Multimodal Models (LMM), è emerso un paradigma di Cross Modality Compression (CMC) di tipo Immagine-Testo-Immagine. Rispetto ai codec tradizionali, questa compressione a livello semantico può ridurre le dimensioni dei dati immagine allo 0,1% o anche meno, aprendo potenziali applicazioni significative. Tuttavia, il CMC presenta alcuni difetti in termini di coerenza con l'immagine originale e qualità percettiva. Per affrontare questo problema, introduciamo CMC-Bench, un benchmark che valuta le prestazioni collaborative dei modelli Image-to-Text (I2T) e Text-to-Image (T2I) nella compressione delle immagini. Questo benchmark copre rispettivamente 18.000 e 40.000 immagini per verificare 6 modelli I2T e 12 T2I mainstream, includendo 160.000 punteggi di preferenza soggettiva annotati da esperti umani. A bitrate ultra-bassi, questo articolo dimostra che la combinazione di alcuni modelli I2T e T2I ha superato i codec di segnali visivi più avanzati; allo stesso tempo, evidenzia le aree in cui gli LMM possono essere ulteriormente ottimizzati per il compito di compressione. Incoraggiamo gli sviluppatori di LMM a partecipare a questo test per promuovere l'evoluzione dei protocolli di codec per segnali visivi.
English
Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.
PDF62February 7, 2026