CMC-Bench: Auf dem Weg zu einem neuen Paradigma der visuellen Signal-Kompression
CMC-Bench: Towards a New Paradigm of Visual Signal Compression
June 13, 2024
papers.authors: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin
cs.AI
papers.abstract
Die Kompression von Bildern mit ultraniedriger Bitrate ist ein anspruchsvolles und anspruchsvolles Thema. Mit der Entwicklung von großen multimodalen Modellen (LMMs) ist ein Paradigma der Cross-Modalitätskompression (CMC) von Bild-Text-Bild entstanden. Im Vergleich zu traditionellen Codecs kann diese semantische Kompression das Bildformat auf 0,1\% oder sogar weniger reduzieren, was starke potenzielle Anwendungen hat. Allerdings weist CMC bestimmte Mängel in der Konsistenz mit dem Originalbild und der Wahrnehmungsqualität auf. Um dieses Problem zu lösen, führen wir CMC-Bench ein, einen Leistungsbenchmark für die kooperative Leistung von Bild-zu-Text (I2T) und Text-zu-Bild (T2I) Modellen für die Bildkompression. Dieser Benchmark umfasst jeweils 18.000 und 40.000 Bilder, um 6 gängige I2T- und 12 T2I-Modelle zu überprüfen, einschließlich 160.000 subjektiver Präferenzbewertungen, die von menschlichen Experten annotiert wurden. Bei ultraniedrigen Bitraten zeigt diese Arbeit, dass die Kombination einiger I2T- und T2I-Modelle die fortschrittlichsten visuellen Signalcodecs übertroffen hat; gleichzeitig wird hervorgehoben, wo LMMs weiter optimiert werden können, um die Kompressionaufgabe zu verbessern. Wir ermutigen LMM-Entwickler, an diesem Test teilzunehmen, um die Evolution der Protokolle für visuelle Signalcodecs voranzutreiben.
English
Ultra-low bitrate image compression is a challenging and demanding topic.
With the development of Large Multimodal Models (LMMs), a Cross Modality
Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with
traditional codecs, this semantic-level compression can reduce image data size
to 0.1\% or even lower, which has strong potential applications. However, CMC
has certain defects in consistency with the original image and perceptual
quality. To address this problem, we introduce CMC-Bench, a benchmark of the
cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models
for image compression. This benchmark covers 18,000 and 40,000 images
respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000
subjective preference scores annotated by human experts. At ultra-low bitrates,
this paper proves that the combination of some I2T and T2I models has surpassed
the most advanced visual signal codecs; meanwhile, it highlights where LMMs can
be further optimized toward the compression task. We encourage LMM developers
to participate in this test to promote the evolution of visual signal codec
protocols.