ChatPaper.aiChatPaper

Können Mehrzweck-Sprachmodelle die tiefgreifende Bedeutung hinter chinesischen Bildern verstehen?

Can MLLMs Understand the Deep Implication Behind Chinese Images?

October 17, 2024
Autoren: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI

Zusammenfassung

Mit der stetigen Verbesserung der Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) steigt der Bedarf an Evaluierung von MLLMs auf höherer Ebene. Es gibt jedoch einen Mangel an Arbeiten, die MLLMs auf höherer Ebene in der Wahrnehmung und im Verständnis von chinesischem visuellem Inhalt bewerten. Um diese Lücke zu schließen, stellen wir das **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, vor, das darauf abzielt, die höheren Wahrnehmungs- und Verständnisfähigkeiten von MLLMs für chinesische Bilder zu bewerten. CII-Bench hebt sich auf verschiedene Weisen von bestehenden Benchmarks ab. Zunächst werden die Bilder in CII-Bench aus dem chinesischen Internet bezogen und manuell überprüft, wobei die entsprechenden Antworten ebenfalls manuell erstellt werden, um die Authentizität des chinesischen Kontexts sicherzustellen. Darüber hinaus integriert CII-Bench Bilder, die die chinesische traditionelle Kultur repräsentieren, wie berühmte chinesische traditionelle Gemälde, die das Verständnis des Modells für die chinesische traditionelle Kultur tief reflektieren können. Durch umfangreiche Experimente auf CII-Bench mit mehreren MLLMs haben wir bedeutende Erkenntnisse gewonnen. Zunächst wird ein erheblicher Unterschied in der Leistung von MLLMs und Menschen auf CII-Bench festgestellt. Die höchste Genauigkeit von MLLMs beträgt 64,4%, während die menschliche Genauigkeit im Durchschnitt 78,2% beträgt und beeindruckende 81,0% erreicht. Anschließend schneiden MLLMs schlechter bei chinesischen traditionellen Kulturbildern ab, was auf Einschränkungen in ihrer Fähigkeit hinweist, hochrangige Semantik zu verstehen und über ein tiefes Wissensfundament der chinesischen traditionellen Kultur zu verfügen. Schließlich wird festgestellt, dass die meisten Modelle eine verbesserte Genauigkeit aufweisen, wenn emotionale Hinweise aus den Bildern in die Anfragen integriert werden. Wir sind der Überzeugung, dass CII-Bench MLLMs ermöglichen wird, ein besseres Verständnis für chinesische Semantik und chinesisch-spezifische Bilder zu erlangen und somit den Weg hin zu einer Experten-Künstlichen-Allgemeinintelligenz (AGI) voranzutreiben. Unser Projekt ist öffentlich verfügbar unter https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.

Summary

AI-Generated Summary

PDF112November 16, 2024