CMC-Bench: Naar een nieuw paradigma van visuele signaalcompressie
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
Auteurs: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
Samenvatting
Ultra-laag bitrate beeldcompressie is een uitdagend en veeleisend onderwerp.
Met de ontwikkeling van Large Multimodal Models (LMMs) is een Cross Modality
Compression (CMC) paradigma van Beeld-Text-Beeld ontstaan. In vergelijking met
traditionele codecs kan deze semantische compressie de beelddatagrootte reduceren
tot 0,1\% of zelfs lager, wat sterke potentiële toepassingen heeft. Echter, CMC
heeft bepaalde tekortkomingen in consistentie met het originele beeld en perceptuele
kwaliteit. Om dit probleem aan te pakken, introduceren we CMC-Bench, een benchmark
van de samenwerkende prestaties van Image-to-Text (I2T) en Text-to-Image (T2I)
modellen voor beeldcompressie. Deze benchmark omvat respectievelijk 18.000 en 40.000
beelden om 6 mainstream I2T en 12 T2I modellen te verifiëren, inclusief 160.000
subjectieve voorkeursscores geannoteerd door menselijke experts. Bij ultra-lage bitrates
bewijst dit artikel dat de combinatie van sommige I2T en T2I modellen de meest geavanceerde
visuele signaalcodecs heeft overtroffen; tegelijkertijd benadrukt het waar LMMs verder
geoptimaliseerd kunnen worden richting de compressietaak. We moedigen LMM-ontwikkelaars
aan om deel te nemen aan deze test om de evolutie van visuele signaalcodecprotocollen te bevorderen.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.