Possono i Modelli Linguaggio Multilingua a Grande Scala comprendere le profonde implicazioni dietro le immagini cinesi?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
Autori: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
Abstract
Con il miglioramento delle capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), cresce la necessità di valutare le capacità di ordine superiore dei MLLMs. Tuttavia, manca un lavoro di valutazione dei MLLM per la percezione e la comprensione di ordine superiore dei contenuti visivi cinesi. Per colmare questa lacuna, presentiamo il **B**enchmark di **C**omprensione delle **I**mplicazioni delle **I**mmagini cinesi, **CII-Bench**, che mira a valutare le capacità di percezione e comprensione di ordine superiore dei MLLMs per le immagini cinesi. CII-Bench si distingue in diversi modi rispetto ai benchmark esistenti. In primo luogo, per garantire l'autenticità del contesto cinese, le immagini in CII-Bench sono tratte da Internet cinese e revisionate manualmente, con le relative risposte anche create manualmente. Inoltre, CII-Bench incorpora immagini che rappresentano la cultura tradizionale cinese, come famose pitture tradizionali cinesi, che possono riflettere profondamente la comprensione della cultura tradizionale cinese da parte del modello. Attraverso ampi esperimenti su CII-Bench su vari MLLMs, abbiamo fatto importanti scoperte. Inizialmente, si osserva un divario significativo tra le prestazioni dei MLLMs e degli esseri umani su CII-Bench. La massima accuratezza dei MLLMs raggiunge il 64,4%, mentre l'accuratezza umana si attesta in media al 78,2%, raggiungendo un impressionante 81,0%. Successivamente, i MLLMs si comportano peggio sulle immagini della cultura tradizionale cinese, suggerendo limiti nella loro capacità di comprendere semantica di alto livello e la mancanza di una base di conoscenza approfondita della cultura tradizionale cinese. Infine, si osserva che la maggior parte dei modelli mostra un'accuratezza migliorata quando vengono incorporati suggerimenti emotivi delle immagini nei prompt. Crediamo che CII-Bench consentirà ai MLLMs di acquisire una migliore comprensione della semantica cinese e delle immagini specifiche cinesi, avanzando nel percorso verso un'intelligenza artificiale generale (AGI) esperta. Il nostro progetto è disponibile pubblicamente su https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary