ChatPaper.aiChatPaper

GIMMICK -- Benchmark Culturel Multimodal et Multitâche à Inclusion Globale

GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

February 19, 2025
Auteurs: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI

Résumé

Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) ont récemment attiré l'attention en raison de leurs performances distinctives et de leur applicabilité étendue. Bien qu'il ait été précédemment démontré que leur efficacité dans des scénarios d'utilisation impliquant des contextes non occidentaux est insuffisante, les études existantes sont limitées en portée, couvrant seulement un éventail restreint de cultures, se concentrant exclusivement sur un petit nombre d'aspects culturels, ou évaluant une sélection limitée de modèles sur une seule tâche. Pour une recherche sur les LVLMs véritablement inclusive à l'échelle mondiale, nous introduisons GIMMICK, un benchmark multimodal étendu conçu pour évaluer un large spectre de connaissances culturelles à travers 144 pays représentant six macro-régions mondiales. GIMMICK comprend six tâches basées sur trois nouveaux ensembles de données qui couvrent 728 événements ou facettes culturels uniques, sur lesquels nous avons évalué 20 LVLMs et 11 LLMs, incluant cinq modèles propriétaires et 26 modèles open-weight de toutes tailles. Nous examinons systématiquement (1) les biais culturels régionaux, (2) l'influence de la taille des modèles, (3) les modalités d'entrée, et (4) les indices externes. Nos analyses révèlent de forts biais en faveur des cultures occidentales à travers les modèles et les tâches, et mettent en évidence de fortes corrélations entre la taille des modèles et leurs performances, ainsi que l'efficacité des entrées multimodales et des indices géographiques externes. Nous constatons en outre que les modèles possèdent plus de connaissances sur les aspects tangibles que sur les aspects intangibles (par exemple, la nourriture vs les rituels) et qu'ils excellent à reconnaître les origines culturelles générales mais peinent à en avoir une compréhension plus nuancée.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to their distinctive performance and broad applicability. While it has been previously shown that their efficacy in usage scenarios involving non-Western contexts falls short, existing studies are limited in scope, covering just a narrow range of cultures, focusing exclusively on a small number of cultural aspects, or evaluating a limited selection of models on a single task only. Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive multimodal benchmark designed to assess a broad spectrum of cultural knowledge across 144 countries representing six global macro-regions. GIMMICK comprises six tasks built upon three new datasets that span 728 unique cultural events or facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary and 26 open-weight models of all sizes. We systematically examine (1) regional cultural biases, (2) the influence of model size, (3) input modalities, and (4) external cues. Our analyses reveal strong biases toward Western cultures across models and tasks and highlight strong correlations between model size and performance, as well as the effectiveness of multimodal input and external geographic cues. We further find that models have more knowledge of tangible than intangible aspects (e.g., food vs. rituals) and that they excel in recognizing broad cultural origins but struggle with a more nuanced understanding.

Summary

AI-Generated Summary

PDF32February 20, 2025