ChatPaper.aiChatPaper

CMC-Bench: Naar een nieuw paradigma van visuele signaalcompressie

CMC-Bench: Towards a New Paradigm of Visual Signal Compression

June 13, 2024
Auteurs: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI

Samenvatting

Ultra-laag bitrate beeldcompressie is een uitdagend en veeleisend onderwerp. Met de ontwikkeling van Large Multimodal Models (LMMs) is een Cross Modality Compression (CMC) paradigma van Beeld-Text-Beeld ontstaan. In vergelijking met traditionele codecs kan deze semantische compressie de beelddatagrootte reduceren tot 0,1\% of zelfs lager, wat sterke potentiële toepassingen heeft. Echter, CMC heeft bepaalde tekortkomingen in consistentie met het originele beeld en perceptuele kwaliteit. Om dit probleem aan te pakken, introduceren we CMC-Bench, een benchmark van de samenwerkende prestaties van Image-to-Text (I2T) en Text-to-Image (T2I) modellen voor beeldcompressie. Deze benchmark omvat respectievelijk 18.000 en 40.000 beelden om 6 mainstream I2T en 12 T2I modellen te verifiëren, inclusief 160.000 subjectieve voorkeursscores geannoteerd door menselijke experts. Bij ultra-lage bitrates bewijst dit artikel dat de combinatie van sommige I2T en T2I modellen de meest geavanceerde visuele signaalcodecs heeft overtroffen; tegelijkertijd benadrukt het waar LMMs verder geoptimaliseerd kunnen worden richting de compressietaak. We moedigen LMM-ontwikkelaars aan om deel te nemen aan deze test om de evolutie van visuele signaalcodecprotocollen te bevorderen.
English
Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.
PDF62February 7, 2026