¿Pueden los MLLMs entender la profunda implicación detrás de las imágenes chinas?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
Autores: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
Resumen
A medida que las capacidades de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) continúan mejorando, la necesidad de evaluar las capacidades de orden superior de los MLLMs está aumentando. Sin embargo, existe una falta de trabajos que evalúen los MLLM para la percepción y comprensión de contenido visual chino de orden superior. Para cubrir esta brecha, presentamos el **Banco de Pruebas de Comprensión de Imágenes Chinas**, **CII-Bench**, que tiene como objetivo evaluar las capacidades de percepción y comprensión de orden superior de los MLLMs para imágenes chinas. CII-Bench se destaca de varias maneras en comparación con los bancos de pruebas existentes. En primer lugar, para garantizar la autenticidad del contexto chino, las imágenes en CII-Bench se obtienen de Internet chino y se revisan manualmente, con respuestas correspondientes también elaboradas manualmente. Además, CII-Bench incorpora imágenes que representan la cultura tradicional china, como famosas pinturas tradicionales chinas, que pueden reflejar profundamente la comprensión del modelo sobre la cultura tradicional china. A través de extensos experimentos en CII-Bench con varios MLLMs, hemos realizado hallazgos significativos. Inicialmente, se observa una brecha sustancial entre el rendimiento de los MLLMs y los humanos en CII-Bench. La precisión más alta de los MLLMs alcanza el 64.4%, mientras que la precisión humana promedia el 78.2%, alcanzando un impresionante 81.0%. Posteriormente, los MLLMs tienen un rendimiento inferior en imágenes de cultura tradicional china, lo que sugiere limitaciones en su capacidad para entender semántica de alto nivel y carecer de una base de conocimientos profunda sobre la cultura tradicional china. Finalmente, se observa que la mayoría de los modelos muestran una precisión mejorada cuando se incorporan pistas emocionales de las imágenes en las indicaciones. Creemos que CII-Bench permitirá a los MLLMs obtener una mejor comprensión de la semántica china e imágenes específicas chinas, avanzando en el camino hacia una inteligencia artificial general experta (AGI). Nuestro proyecto está disponible públicamente en https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary