GIMMICK -- Benchmark Globale Inclusivo Multimodale e Multitask per la Conoscenza Culturale
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
February 19, 2025
Autori: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI
Abstract
I Large Vision-Language Models (LVLM) hanno recentemente attirato l'attenzione grazie alle loro prestazioni distintive e alla vasta applicabilità. Sebbene sia stato precedentemente dimostrato che la loro efficacia in scenari d'uso che coinvolgono contesti non occidentali sia limitata, gli studi esistenti hanno un ambito ristretto, coprendo solo una gamma limitata di culture, concentrandosi esclusivamente su un piccolo numero di aspetti culturali o valutando una selezione limitata di modelli su un unico compito. Verso una ricerca sugli LVLM globalmente inclusiva, introduciamo GIMMICK, un benchmark multimodale esteso progettato per valutare un ampio spettro di conoscenze culturali in 144 paesi rappresentativi di sei macro-regioni globali. GIMMICK comprende sei compiti basati su tre nuovi dataset che coprono 728 eventi o aspetti culturali unici, su cui abbiamo valutato 20 LVLM e 11 LLM, inclusi cinque modelli proprietari e 26 modelli open-weight di tutte le dimensioni. Esaminiamo sistematicamente (1) i pregiudizi culturali regionali, (2) l'influenza della dimensione del modello, (3) le modalità di input e (4) i suggerimenti esterni. Le nostre analisi rivelano forti pregiudizi verso le culture occidentali tra i modelli e i compiti, evidenziando forti correlazioni tra la dimensione del modello e le prestazioni, nonché l'efficacia dell'input multimodale e dei suggerimenti geografici esterni. Inoltre, scopriamo che i modelli hanno più conoscenza degli aspetti tangibili rispetto a quelli intangibili (ad esempio, cibo vs. rituali) e che eccellono nel riconoscere le origini culturali ampie, ma faticano a comprendere in modo più sfumato.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to
their distinctive performance and broad applicability. While it has been
previously shown that their efficacy in usage scenarios involving non-Western
contexts falls short, existing studies are limited in scope, covering just a
narrow range of cultures, focusing exclusively on a small number of cultural
aspects, or evaluating a limited selection of models on a single task only.
Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive
multimodal benchmark designed to assess a broad spectrum of cultural knowledge
across 144 countries representing six global macro-regions. GIMMICK comprises
six tasks built upon three new datasets that span 728 unique cultural events or
facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary
and 26 open-weight models of all sizes. We systematically examine (1) regional
cultural biases, (2) the influence of model size, (3) input modalities, and (4)
external cues. Our analyses reveal strong biases toward Western cultures across
models and tasks and highlight strong correlations between model size and
performance, as well as the effectiveness of multimodal input and external
geographic cues. We further find that models have more knowledge of tangible
than intangible aspects (e.g., food vs. rituals) and that they excel in
recognizing broad cultural origins but struggle with a more nuanced
understanding.Summary
AI-Generated Summary