Les MLLM peuvent-ils comprendre les implications profondes derrière les images chinoises ?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
Auteurs: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
Résumé
À mesure que les capacités des Modèles de Langage Multimodal à Grande Échelle (MLLM) continuent de s'améliorer, le besoin d'une évaluation des capacités de niveau supérieur des MLLM augmente. Cependant, il existe un manque de travaux évaluant les MLLM pour la perception et la compréhension de contenu visuel chinois de niveau supérieur. Pour combler cette lacune, nous introduisons le **B**anc d'**E**ssai pour la **C**ompréhension des **I**mplications d'**I**mages chinoises, **CII-Bench**, qui vise à évaluer les capacités de perception et de compréhension de niveau supérieur des MLLM pour les images chinoises. CII-Bench se distingue de plusieurs manières par rapport aux bancs d'essai existants. Tout d'abord, pour garantir l'authenticité du contexte chinois, les images de CII-Bench sont issues d'Internet chinois et examinées manuellement, avec des réponses correspondantes également élaborées manuellement. De plus, CII-Bench intègre des images représentant la culture traditionnelle chinoise, telles que des peintures traditionnelles chinoises célèbres, qui peuvent refléter profondément la compréhension de la culture traditionnelle chinoise par le modèle. À travers de vastes expériences sur CII-Bench avec plusieurs MLLM, nous avons fait des découvertes significatives. Tout d'abord, un écart substantiel est observé entre les performances des MLLM et des humains sur CII-Bench. La précision la plus élevée des MLLM atteint 64,4 %, tandis que la précision humaine avoisine 78,2 %, culminant à un impressionnant 81,0 %. Ensuite, les MLLM se comportent moins bien sur les images de culture traditionnelle chinoise, suggérant des limitations dans leur capacité à comprendre les sémantiques de haut niveau et à manquer d'une base de connaissances approfondie de la culture traditionnelle chinoise. Enfin, il est observé que la plupart des modèles affichent une précision améliorée lorsque des indices émotionnels d'image sont incorporés dans les indications. Nous pensons que CII-Bench permettra aux MLLM de mieux comprendre la sémantique chinoise et les images spécifiques à la Chine, faisant progresser le chemin vers une intelligence artificielle générale experte (AGI). Notre projet est disponible publiquement sur https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary