ChatPaper.aiChatPaper

GIMMICK – Global inklusiver multimodaler Multitask-Benchmark für kulturelles Wissen

GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

February 19, 2025
Autoren: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI

Zusammenfassung

Große Vision-Sprach-Modelle (LVLMs) haben in letzter Zeit aufgrund ihrer bemerkenswerten Leistung und breiten Anwendbarkeit Aufmerksamkeit erregt. Obwohl bereits gezeigt wurde, dass ihre Wirksamkeit in Anwendungsszenarien mit nicht-westlichen Kontexten begrenzt ist, sind bestehende Studien in ihrem Umfang eingeschränkt, da sie nur eine begrenzte Anzahl von Kulturen abdecken, sich ausschließlich auf eine kleine Auswahl kultureller Aspekte konzentrieren oder nur eine begrenzte Auswahl von Modellen in einer einzigen Aufgabe bewerten. Im Hinblick auf eine global inklusive LVLM-Forschung stellen wir GIMMICK vor, einen umfangreichen multimodalen Benchmark, der entwickelt wurde, um ein breites Spektrum an kulturellem Wissen über 144 Länder, die sechs globale Makroregionen repräsentieren, zu bewerten. GIMMICK umfasst sechs Aufgaben, die auf drei neuen Datensätzen basieren, die 728 einzigartige kulturelle Ereignisse oder Facetten abdecken, auf denen wir 20 LVLMs und 11 LLMs, darunter fünf proprietäre und 26 Open-Weight-Modelle aller Größen, evaluiert haben. Wir untersuchen systematisch (1) regionale kulturelle Verzerrungen, (2) den Einfluss der Modellgröße, (3) Eingabemodalitäten und (4) externe Hinweise. Unsere Analysen zeigen starke Verzerrungen zugunsten westlicher Kulturen über Modelle und Aufgaben hinweg und heben starke Korrelationen zwischen Modellgröße und Leistung sowie die Wirksamkeit multimodaler Eingaben und externer geografischer Hinweise hervor. Weiterhin stellen wir fest, dass Modelle mehr Wissen über greifbare als über nicht greifbare Aspekte haben (z. B. Essen vs. Rituale) und dass sie bei der Erkennung breiter kultureller Ursprünge gut abschneiden, aber mit einem differenzierteren Verständnis Schwierigkeiten haben.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to their distinctive performance and broad applicability. While it has been previously shown that their efficacy in usage scenarios involving non-Western contexts falls short, existing studies are limited in scope, covering just a narrow range of cultures, focusing exclusively on a small number of cultural aspects, or evaluating a limited selection of models on a single task only. Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive multimodal benchmark designed to assess a broad spectrum of cultural knowledge across 144 countries representing six global macro-regions. GIMMICK comprises six tasks built upon three new datasets that span 728 unique cultural events or facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary and 26 open-weight models of all sizes. We systematically examine (1) regional cultural biases, (2) the influence of model size, (3) input modalities, and (4) external cues. Our analyses reveal strong biases toward Western cultures across models and tasks and highlight strong correlations between model size and performance, as well as the effectiveness of multimodal input and external geographic cues. We further find that models have more knowledge of tangible than intangible aspects (e.g., food vs. rituals) and that they excel in recognizing broad cultural origins but struggle with a more nuanced understanding.

Summary

AI-Generated Summary

PDF32February 20, 2025