Os MLLMs conseguem compreender a profunda implicação por trás de imagens chinesas?

Resumo

À medida que as capacidades dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) continuam a melhorar, a necessidade de avaliação de capacidades de ordem superior dos MLLMs está aumentando. No entanto, há uma falta de trabalhos que avaliem os MLLMs para a percepção e compreensão de conteúdo visual chinês de ordem superior. Para preencher essa lacuna, apresentamos o **B**enchmark de **C**ompreensão de **I**mplicações de **I**magens Chinesas, **CII-Bench**, que tem como objetivo avaliar as capacidades de percepção e compreensão de ordem superior dos MLLMs para imagens chinesas. O CII-Bench se destaca de várias maneiras em comparação com os benchmarks existentes. Em primeiro lugar, para garantir a autenticidade do contexto chinês, as imagens no CII-Bench são obtidas da Internet chinesa e revisadas manualmente, com respostas correspondentes também elaboradas manualmente. Além disso, o CII-Bench incorpora imagens que representam a cultura tradicional chinesa, como pinturas tradicionais chinesas famosas, que podem refletir profundamente a compreensão do modelo sobre a cultura tradicional chinesa. Através de experimentos extensivos no CII-Bench com vários MLLMs, fizemos descobertas significativas. Inicialmente, observa-se uma lacuna substancial entre o desempenho dos MLLMs e dos humanos no CII-Bench. A precisão mais alta dos MLLMs atinge 64,4%, enquanto a precisão humana tem uma média de 78,2%, atingindo um impressionante 81,0%. Posteriormente, os MLLMs têm um desempenho pior em imagens de cultura tradicional chinesa, sugerindo limitações em sua capacidade de compreender semântica de alto nível e falta de um conhecimento profundo da cultura tradicional chinesa. Por fim, observa-se que a maioria dos modelos apresenta uma precisão aprimorada quando pistas de emoção da imagem são incorporadas nas sugestões. Acreditamos que o CII-Bench permitirá que os MLLMs obtenham uma melhor compreensão da semântica chinesa e de imagens específicas chinesas, avançando na jornada em direção à inteligência artificial geral especializada (AGI). Nosso projeto está publicamente disponível em https://cii-bench.github.io/.

English

As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.

Os MLLMs conseguem compreender a profunda implicação por trás de imagens chinesas?

Can MLLMs Understand the Deep Implication Behind Chinese Images?

Resumo

Support