CMC-Bench: 視覚信号圧縮の新たなパラダイムに向けて
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
著者: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
要旨
超低ビットレート画像圧縮は、挑戦的かつ要求の高いトピックです。大規模マルチモーダルモデル(LMMs)の発展に伴い、Image-Text-Imageというクロスモダリティ圧縮(CMC)のパラダイムが登場しました。従来のコーデックと比較して、このセマンティックレベルの圧縮は画像データサイズを0.1%以下に削減することが可能であり、強力な応用ポテンシャルを持っています。しかし、CMCは元の画像との一貫性や知覚品質において一定の欠点があります。この問題を解決するため、我々はCMC-Benchを導入しました。これは、画像圧縮のためのImage-to-Text(I2T)とText-to-Image(T2I)モデルの協調性能を評価するベンチマークです。このベンチマークは、18,000枚と40,000枚の画像をそれぞれカバーし、6つの主流I2Tモデルと12のT2Iモデルを検証します。これには、人間の専門家によって注釈付けられた160,000の主観的嗜好スコアが含まれます。超低ビットレートにおいて、本論文は、いくつかのI2TとT2Iモデルの組み合わせが最先端の視覚信号コーデックを凌駕していることを証明し、同時に、LMMsが圧縮タスクに向けてさらに最適化できる点を強調しています。我々は、LMM開発者がこのテストに参加し、視覚信号コーデックプロトコルの進化を促進することを奨励します。
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.Summary
AI-Generated Summary