Können Mehrzweck-Sprachmodelle die tiefgreifende Bedeutung hinter chinesischen Bildern verstehen?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
Autoren: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
Zusammenfassung
Mit der stetigen Verbesserung der Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) steigt der Bedarf an Evaluierung von MLLMs auf höherer Ebene. Es gibt jedoch einen Mangel an Arbeiten, die MLLMs auf höherer Ebene in der Wahrnehmung und im Verständnis von chinesischem visuellem Inhalt bewerten. Um diese Lücke zu schließen, stellen wir das **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, vor, das darauf abzielt, die höheren Wahrnehmungs- und Verständnisfähigkeiten von MLLMs für chinesische Bilder zu bewerten. CII-Bench hebt sich auf verschiedene Weisen von bestehenden Benchmarks ab. Zunächst werden die Bilder in CII-Bench aus dem chinesischen Internet bezogen und manuell überprüft, wobei die entsprechenden Antworten ebenfalls manuell erstellt werden, um die Authentizität des chinesischen Kontexts sicherzustellen. Darüber hinaus integriert CII-Bench Bilder, die die chinesische traditionelle Kultur repräsentieren, wie berühmte chinesische traditionelle Gemälde, die das Verständnis des Modells für die chinesische traditionelle Kultur tief reflektieren können. Durch umfangreiche Experimente auf CII-Bench mit mehreren MLLMs haben wir bedeutende Erkenntnisse gewonnen. Zunächst wird ein erheblicher Unterschied in der Leistung von MLLMs und Menschen auf CII-Bench festgestellt. Die höchste Genauigkeit von MLLMs beträgt 64,4%, während die menschliche Genauigkeit im Durchschnitt 78,2% beträgt und beeindruckende 81,0% erreicht. Anschließend schneiden MLLMs schlechter bei chinesischen traditionellen Kulturbildern ab, was auf Einschränkungen in ihrer Fähigkeit hinweist, hochrangige Semantik zu verstehen und über ein tiefes Wissensfundament der chinesischen traditionellen Kultur zu verfügen. Schließlich wird festgestellt, dass die meisten Modelle eine verbesserte Genauigkeit aufweisen, wenn emotionale Hinweise aus den Bildern in die Anfragen integriert werden. Wir sind der Überzeugung, dass CII-Bench MLLMs ermöglichen wird, ein besseres Verständnis für chinesische Semantik und chinesisch-spezifische Bilder zu erlangen und somit den Weg hin zu einer Experten-Künstlichen-Allgemeinintelligenz (AGI) voranzutreiben. Unser Projekt ist öffentlich verfügbar unter https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary