ChatPaper.aiChatPaper

Os MLLMs conseguem compreender a profunda implicação por trás de imagens chinesas?

Can MLLMs Understand the Deep Implication Behind Chinese Images?

October 17, 2024
Autores: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni
cs.AI

Resumo

À medida que as capacidades dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continuam a melhorar, a necessidade de avaliação de capacidades de ordem superior dos MLLMs está aumentando. No entanto, há uma falta de trabalhos que avaliem os MLLMs para a percepção e compreensão de conteúdo visual chinês de ordem superior. Para preencher essa lacuna, apresentamos o **B**enchmark de **C**ompreensão de **I**mplicações de **I**magens Chinesas, **CII-Bench**, que tem como objetivo avaliar as capacidades de percepção e compreensão de ordem superior dos MLLMs para imagens chinesas. O CII-Bench se destaca de várias maneiras em comparação com os benchmarks existentes. Em primeiro lugar, para garantir a autenticidade do contexto chinês, as imagens no CII-Bench são obtidas da Internet chinesa e revisadas manualmente, com respostas correspondentes também elaboradas manualmente. Além disso, o CII-Bench incorpora imagens que representam a cultura tradicional chinesa, como pinturas tradicionais chinesas famosas, que podem refletir profundamente a compreensão do modelo sobre a cultura tradicional chinesa. Através de experimentos extensivos no CII-Bench com vários MLLMs, fizemos descobertas significativas. Inicialmente, observa-se uma lacuna substancial entre o desempenho dos MLLMs e dos humanos no CII-Bench. A precisão mais alta dos MLLMs atinge 64,4%, enquanto a precisão humana tem uma média de 78,2%, atingindo um impressionante 81,0%. Posteriormente, os MLLMs têm um desempenho pior em imagens de cultura tradicional chinesa, sugerindo limitações em sua capacidade de compreender semântica de alto nível e falta de um conhecimento profundo da cultura tradicional chinesa. Por fim, observa-se que a maioria dos modelos apresenta uma precisão aprimorada quando pistas de emoção da imagem são incorporadas nas sugestões. Acreditamos que o CII-Bench permitirá que os MLLMs obtenham uma melhor compreensão da semântica chinesa e de imagens específicas chinesas, avançando na jornada em direção à inteligência artificial geral especializada (AGI). Nosso projeto está publicamente disponível em https://cii-bench.github.io/.
English
As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.

Summary

AI-Generated Summary

PDF112November 16, 2024