ChatPaper.aiChatPaper

Les MLLM peuvent-ils comprendre les implications profondes derrière les images chinoises ?

Can MLLMs Understand the Deep Implication Behind Chinese Images?

October 17, 2024
Auteurs: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI

Résumé

À mesure que les capacités des Modèles de Langage Multimodal à Grande Échelle (MLLM) continuent de s'améliorer, le besoin d'une évaluation des capacités de niveau supérieur des MLLM augmente. Cependant, il existe un manque de travaux évaluant les MLLM pour la perception et la compréhension de contenu visuel chinois de niveau supérieur. Pour combler cette lacune, nous introduisons le **B**anc d'**E**ssai pour la **C**ompréhension des **I**mplications d'**I**mages chinoises, **CII-Bench**, qui vise à évaluer les capacités de perception et de compréhension de niveau supérieur des MLLM pour les images chinoises. CII-Bench se distingue de plusieurs manières par rapport aux bancs d'essai existants. Tout d'abord, pour garantir l'authenticité du contexte chinois, les images de CII-Bench sont issues d'Internet chinois et examinées manuellement, avec des réponses correspondantes également élaborées manuellement. De plus, CII-Bench intègre des images représentant la culture traditionnelle chinoise, telles que des peintures traditionnelles chinoises célèbres, qui peuvent refléter profondément la compréhension de la culture traditionnelle chinoise par le modèle. À travers de vastes expériences sur CII-Bench avec plusieurs MLLM, nous avons fait des découvertes significatives. Tout d'abord, un écart substantiel est observé entre les performances des MLLM et des humains sur CII-Bench. La précision la plus élevée des MLLM atteint 64,4 %, tandis que la précision humaine avoisine 78,2 %, culminant à un impressionnant 81,0 %. Ensuite, les MLLM se comportent moins bien sur les images de culture traditionnelle chinoise, suggérant des limitations dans leur capacité à comprendre les sémantiques de haut niveau et à manquer d'une base de connaissances approfondie de la culture traditionnelle chinoise. Enfin, il est observé que la plupart des modèles affichent une précision améliorée lorsque des indices émotionnels d'image sont incorporés dans les indications. Nous pensons que CII-Bench permettra aux MLLM de mieux comprendre la sémantique chinoise et les images spécifiques à la Chine, faisant progresser le chemin vers une intelligence artificielle générale experte (AGI). Notre projet est disponible publiquement sur https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.

Summary

AI-Generated Summary

PDF112November 16, 2024