GIMMICK -- Wereldwijd Inclusieve Multimodale Multitask Culturele Kennis Benchmarking

Samenvatting

Grote Vision-Taalmodellen (LVLMs) hebben recentelijk aandacht gekregen vanwege hun opvallende prestaties en brede toepasbaarheid. Hoewel eerder is aangetoond dat hun effectiviteit in gebruiksscenario's die niet-Westerse contexten betreffen tekortschiet, zijn bestaande studies beperkt in omvang, waarbij slechts een smal scala aan culturen wordt bestreken, uitsluitend wordt gefocust op een klein aantal culturele aspecten, of slechts een beperkte selectie van modellen op één enkele taak wordt geëvalueerd. In de richting van wereldwijd inclusief LVLM-onderzoek introduceren we GIMMICK, een uitgebreide multimodale benchmark die is ontworpen om een breed spectrum aan culturele kennis te beoordelen over 144 landen die zes wereldwijde macroregio's vertegenwoordigen. GIMMICK omvat zes taken gebaseerd op drie nieuwe datasets die 728 unieke culturele gebeurtenissen of facetten beslaan, waarop we 20 LVLMs en 11 LLMs hebben geëvalueerd, waaronder vijf propriëtaire en 26 open-weight modellen van alle formaten. We onderzoeken systematisch (1) regionale culturele vooroordelen, (2) de invloed van modelgrootte, (3) invoermodaliteiten, en (4) externe aanwijzingen. Onze analyses onthullen sterke vooroordelen ten opzichte van Westerse culturen over modellen en taken heen en benadrukken sterke correlaties tussen modelgrootte en prestaties, evenals de effectiviteit van multimodale invoer en externe geografische aanwijzingen. We constateren verder dat modellen meer kennis hebben van tastbare dan van ontastbare aspecten (bijv. voedsel vs. rituelen) en dat ze uitblinken in het herkennen van brede culturele oorsprongen, maar moeite hebben met een meer genuanceerd begrip.

English

Large Vision-Language Models (LVLMs) have recently gained attention due to their distinctive performance and broad applicability. While it has been previously shown that their efficacy in usage scenarios involving non-Western contexts falls short, existing studies are limited in scope, covering just a narrow range of cultures, focusing exclusively on a small number of cultural aspects, or evaluating a limited selection of models on a single task only. Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive multimodal benchmark designed to assess a broad spectrum of cultural knowledge across 144 countries representing six global macro-regions. GIMMICK comprises six tasks built upon three new datasets that span 728 unique cultural events or facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary and 26 open-weight models of all sizes. We systematically examine (1) regional cultural biases, (2) the influence of model size, (3) input modalities, and (4) external cues. Our analyses reveal strong biases toward Western cultures across models and tasks and highlight strong correlations between model size and performance, as well as the effectiveness of multimodal input and external geographic cues. We further find that models have more knowledge of tangible than intangible aspects (e.g., food vs. rituals) and that they excel in recognizing broad cultural origins but struggle with a more nuanced understanding.

GIMMICK -- Wereldwijd Inclusieve Multimodale Multitask Culturele Kennis Benchmarking

GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

Samenvatting

Support