GIMMICK -- Wereldwijd Inclusieve Multimodale Multitask Culturele Kennis Benchmarking
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
February 19, 2025
Auteurs: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI
Samenvatting
Grote Vision-Taalmodellen (LVLMs) hebben recentelijk aandacht gekregen vanwege hun opvallende prestaties en brede toepasbaarheid. Hoewel eerder is aangetoond dat hun effectiviteit in gebruiksscenario's die niet-Westerse contexten betreffen tekortschiet, zijn bestaande studies beperkt in omvang, waarbij slechts een smal scala aan culturen wordt bestreken, uitsluitend wordt gefocust op een klein aantal culturele aspecten, of slechts een beperkte selectie van modellen op één enkele taak wordt geëvalueerd. In de richting van wereldwijd inclusief LVLM-onderzoek introduceren we GIMMICK, een uitgebreide multimodale benchmark die is ontworpen om een breed spectrum aan culturele kennis te beoordelen over 144 landen die zes wereldwijde macroregio's vertegenwoordigen. GIMMICK omvat zes taken gebaseerd op drie nieuwe datasets die 728 unieke culturele gebeurtenissen of facetten beslaan, waarop we 20 LVLMs en 11 LLMs hebben geëvalueerd, waaronder vijf propriëtaire en 26 open-weight modellen van alle formaten. We onderzoeken systematisch (1) regionale culturele vooroordelen, (2) de invloed van modelgrootte, (3) invoermodaliteiten, en (4) externe aanwijzingen. Onze analyses onthullen sterke vooroordelen ten opzichte van Westerse culturen over modellen en taken heen en benadrukken sterke correlaties tussen modelgrootte en prestaties, evenals de effectiviteit van multimodale invoer en externe geografische aanwijzingen. We constateren verder dat modellen meer kennis hebben van tastbare dan van ontastbare aspecten (bijv. voedsel vs. rituelen) en dat ze uitblinken in het herkennen van brede culturele oorsprongen, maar moeite hebben met een meer genuanceerd begrip.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to
their distinctive performance and broad applicability. While it has been
previously shown that their efficacy in usage scenarios involving non-Western
contexts falls short, existing studies are limited in scope, covering just a
narrow range of cultures, focusing exclusively on a small number of cultural
aspects, or evaluating a limited selection of models on a single task only.
Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive
multimodal benchmark designed to assess a broad spectrum of cultural knowledge
across 144 countries representing six global macro-regions. GIMMICK comprises
six tasks built upon three new datasets that span 728 unique cultural events or
facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary
and 26 open-weight models of all sizes. We systematically examine (1) regional
cultural biases, (2) the influence of model size, (3) input modalities, and (4)
external cues. Our analyses reveal strong biases toward Western cultures across
models and tasks and highlight strong correlations between model size and
performance, as well as the effectiveness of multimodal input and external
geographic cues. We further find that models have more knowledge of tangible
than intangible aspects (e.g., food vs. rituals) and that they excel in
recognizing broad cultural origins but struggle with a more nuanced
understanding.Summary
AI-Generated Summary