CMC-Bench: Verso un Nuovo Paradigma della Compressione dei Segnali Visivi
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
Autori: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
Abstract
La compressione di immagini a bitrate ultra-basso è un argomento impegnativo e di grande interesse. Con lo sviluppo dei Large Multimodal Models (LMM), è emerso un paradigma di Cross Modality Compression (CMC) di tipo Immagine-Testo-Immagine. Rispetto ai codec tradizionali, questa compressione a livello semantico può ridurre le dimensioni dei dati immagine allo 0,1% o anche meno, aprendo potenziali applicazioni significative. Tuttavia, il CMC presenta alcuni difetti in termini di coerenza con l'immagine originale e qualità percettiva. Per affrontare questo problema, introduciamo CMC-Bench, un benchmark che valuta le prestazioni collaborative dei modelli Image-to-Text (I2T) e Text-to-Image (T2I) nella compressione delle immagini. Questo benchmark copre rispettivamente 18.000 e 40.000 immagini per verificare 6 modelli I2T e 12 T2I mainstream, includendo 160.000 punteggi di preferenza soggettiva annotati da esperti umani. A bitrate ultra-bassi, questo articolo dimostra che la combinazione di alcuni modelli I2T e T2I ha superato i codec di segnali visivi più avanzati; allo stesso tempo, evidenzia le aree in cui gli LMM possono essere ulteriormente ottimizzati per il compito di compressione. Incoraggiamo gli sviluppatori di LMM a partecipare a questo test per promuovere l'evoluzione dei protocolli di codec per segnali visivi.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.