Os MLLMs conseguem compreender a profunda implicação por trás de imagens chinesas?
Can MLLMs Understand the Deep Implication Behind Chinese Images?
October 17, 2024
Autores: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI
Resumo
À medida que as capacidades dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continuam a melhorar, a necessidade de avaliação de capacidades de ordem superior dos MLLMs está aumentando. No entanto, há uma falta de trabalhos que avaliem os MLLMs para a percepção e compreensão de conteúdo visual chinês de ordem superior. Para preencher essa lacuna, apresentamos o **B**enchmark de **C**ompreensão de **I**mplicações de **I**magens Chinesas, **CII-Bench**, que tem como objetivo avaliar as capacidades de percepção e compreensão de ordem superior dos MLLMs para imagens chinesas. O CII-Bench se destaca de várias maneiras em comparação com os benchmarks existentes. Em primeiro lugar, para garantir a autenticidade do contexto chinês, as imagens no CII-Bench são obtidas da Internet chinesa e revisadas manualmente, com respostas correspondentes também elaboradas manualmente. Além disso, o CII-Bench incorpora imagens que representam a cultura tradicional chinesa, como pinturas tradicionais chinesas famosas, que podem refletir profundamente a compreensão do modelo sobre a cultura tradicional chinesa. Através de experimentos extensivos no CII-Bench com vários MLLMs, fizemos descobertas significativas. Inicialmente, observa-se uma lacuna substancial entre o desempenho dos MLLMs e dos humanos no CII-Bench. A precisão mais alta dos MLLMs atinge 64,4%, enquanto a precisão humana tem uma média de 78,2%, atingindo um impressionante 81,0%. Posteriormente, os MLLMs têm um desempenho pior em imagens de cultura tradicional chinesa, sugerindo limitações em sua capacidade de compreender semântica de alto nível e falta de um conhecimento profundo da cultura tradicional chinesa. Por fim, observa-se que a maioria dos modelos apresenta uma precisão aprimorada quando pistas de emoção da imagem são incorporadas nas sugestões. Acreditamos que o CII-Bench permitirá que os MLLMs obtenham uma melhor compreensão da semântica chinesa e de imagens específicas chinesas, avançando na jornada em direção à inteligência artificial geral especializada (AGI). Nosso projeto está publicamente disponível em https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to
improve, the need for higher-order capability evaluation of MLLMs is
increasing. However, there is a lack of work evaluating MLLM for higher-order
perception and understanding of Chinese visual content. To fill the gap, we
introduce the **C**hinese **I**mage **I**mplication understanding
**Bench**mark, **CII-Bench**, which aims to assess the higher-order perception
and understanding capabilities of MLLMs for Chinese images. CII-Bench stands
out in several ways compared to existing benchmarks. Firstly, to ensure the
authenticity of the Chinese context, images in CII-Bench are sourced from the
Chinese Internet and manually reviewed, with corresponding answers also
manually crafted. Additionally, CII-Bench incorporates images that represent
Chinese traditional culture, such as famous Chinese traditional paintings,
which can deeply reflect the model's understanding of Chinese traditional
culture. Through extensive experiments on CII-Bench across multiple MLLMs, we
have made significant findings. Initially, a substantial gap is observed
between the performance of MLLMs and humans on CII-Bench. The highest accuracy
of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an
impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional
culture images, suggesting limitations in their ability to understand
high-level semantics and lack a deep knowledge base of Chinese traditional
culture. Finally, it is observed that most models exhibit enhanced accuracy
when image emotion hints are incorporated into the prompts. We believe that
CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics
and Chinese-specific images, advancing the journey towards expert artificial
general intelligence (AGI). Our project is publicly available at
https://cii-bench.github.io/.Summary
AI-Generated Summary