CMC-Bench: 시각적 신호 압축의 새로운 패러다임을 향하여
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
저자: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
초록
초저비트레이트 이미지 압축은 도전적이고 요구 사항이 높은 주제입니다. 대형 멀티모달 모델(Large Multimodal Models, LMMs)의 발전과 함께, 이미지-텍스트-이미지의 교차 모달리티 압축(Cross Modality Compression, CMC) 패러다임이 등장했습니다. 이는 전통적인 코덱에 비해 이미지 데이터 크기를 0.1% 이하로 줄일 수 있는 의미 수준의 압축 방식으로, 강력한 응용 가능성을 지니고 있습니다. 그러나 CMC는 원본 이미지와의 일관성 및 지각적 품질 측면에서 일부 결점을 가지고 있습니다. 이를 해결하기 위해, 우리는 이미지-텍스트(Image-to-Text, I2T) 및 텍스트-이미지(Text-to-Image, T2I) 모델의 협력 성능을 평가하기 위한 벤치마크인 CMC-Bench를 소개합니다. 이 벤치마크는 각각 18,000개와 40,000개의 이미지를 포함하며, 6개의 주요 I2T 모델과 12개의 T2I 모델을 검증하고, 전문가가 주석을 단 160,000개의 주관적 선호도 점수를 포함합니다. 초저비트레이트에서, 본 논문은 일부 I2T와 T2I 모델의 조합이 최첨단 시각 신호 코덱을 능가함을 입증하며, 동시에 LMMs가 압축 작업을 위해 더 최적화될 수 있는 부분을 강조합니다. 우리는 LMM 개발자들이 이 테스트에 참여하여 시각 신호 코덱 프로토콜의 진화를 촉진할 것을 권장합니다.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.Summary
AI-Generated Summary