Possono i Modelli Linguaggio Multilingua a Grande Scala comprendere le profonde implicazioni dietro le immagini cinesi?

Abstract

Con il miglioramento delle capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), cresce la necessità di valutare le capacità di ordine superiore dei MLLMs. Tuttavia, manca un lavoro di valutazione dei MLLM per la percezione e la comprensione di ordine superiore dei contenuti visivi cinesi. Per colmare questa lacuna, presentiamo il **B**enchmark di **C**omprensione delle **I**mplicazioni delle **I**mmagini cinesi, **CII-Bench**, che mira a valutare le capacità di percezione e comprensione di ordine superiore dei MLLMs per le immagini cinesi. CII-Bench si distingue in diversi modi rispetto ai benchmark esistenti. In primo luogo, per garantire l'autenticità del contesto cinese, le immagini in CII-Bench sono tratte da Internet cinese e revisionate manualmente, con le relative risposte anche create manualmente. Inoltre, CII-Bench incorpora immagini che rappresentano la cultura tradizionale cinese, come famose pitture tradizionali cinesi, che possono riflettere profondamente la comprensione della cultura tradizionale cinese da parte del modello. Attraverso ampi esperimenti su CII-Bench su vari MLLMs, abbiamo fatto importanti scoperte. Inizialmente, si osserva un divario significativo tra le prestazioni dei MLLMs e degli esseri umani su CII-Bench. La massima accuratezza dei MLLMs raggiunge il 64,4%, mentre l'accuratezza umana si attesta in media al 78,2%, raggiungendo un impressionante 81,0%. Successivamente, i MLLMs si comportano peggio sulle immagini della cultura tradizionale cinese, suggerendo limiti nella loro capacità di comprendere semantica di alto livello e la mancanza di una base di conoscenza approfondita della cultura tradizionale cinese. Infine, si osserva che la maggior parte dei modelli mostra un'accuratezza migliorata quando vengono incorporati suggerimenti emotivi delle immagini nei prompt. Crediamo che CII-Bench consentirà ai MLLMs di acquisire una migliore comprensione della semantica cinese e delle immagini specifiche cinesi, avanzando nel percorso verso un'intelligenza artificiale generale (AGI) esperta. Il nostro progetto è disponibile pubblicamente su https://cii-bench.github.io/.

English

As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.

Possono i Modelli Linguaggio Multilingua a Grande Scala comprendere le profonde implicazioni dietro le immagini cinesi?

Can MLLMs Understand the Deep Implication Behind Chinese Images?

Abstract

Support