CMC-Bench: Hacia un Nuevo Paradigma de Compresión de Señales Visuales
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
Autores: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
Resumen
La compresión de imágenes con tasas de bits ultra bajas es un tema desafiante y exigente. Con el desarrollo de los Modelos Multimodales de Gran Escala (LMMs), ha surgido un paradigma de Compresión Intermodal (CMC) de Imagen-Texto-Imagen. En comparación con los códecs tradicionales, esta compresión a nivel semántico puede reducir el tamaño de los datos de imagen al 0.1% o incluso menos, lo que tiene un fuerte potencial de aplicaciones. Sin embargo, el CMC presenta ciertos defectos en cuanto a la consistencia con la imagen original y la calidad perceptual. Para abordar este problema, presentamos CMC-Bench, un punto de referencia del rendimiento cooperativo de los modelos de Imagen a Texto (I2T) y Texto a Imagen (T2I) para la compresión de imágenes. Este punto de referencia cubre 18,000 y 40,000 imágenes respectivamente para verificar 6 modelos I2T y 12 modelos T2I principales, incluyendo 160,000 puntuaciones de preferencia subjetiva anotadas por expertos humanos. A tasas de bits ultra bajas, este artículo demuestra que la combinación de algunos modelos I2T y T2I ha superado a los códecs de señal visual más avanzados; al mismo tiempo, destaca dónde los LMMs pueden optimizarse aún más para la tarea de compresión. Alentamos a los desarrolladores de LMMs a participar en esta prueba para promover la evolución de los protocolos de códecs de señal visual.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.Summary
AI-Generated Summary