GIMMICK -- グローバルに包括的なマルチモーダル・マルチタスク文化知識ベンチマーク
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
February 19, 2025
著者: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI
要旨
大規模視覚言語モデル(LVLM)は、その卓越した性能と幅広い適用可能性から最近注目を集めています。これまで、非西洋文脈を含む使用シナリオにおける有効性が不十分であることが示されてきましたが、既存の研究は範囲が限定的で、少数の文化にしか及んでおらず、特定の文化的側面にのみ焦点を当てているか、単一のタスクにおいて限られたモデルのみを評価しています。グローバルに包括的なLVLM研究に向けて、我々はGIMMICKを導入します。これは、6つのグローバルマクロ地域を代表する144カ国にわたる広範な文化的知識を評価するために設計された大規模なマルチモーダルベンチマークです。GIMMICKは、728のユニークな文化的イベントまたは側面にまたがる3つの新しいデータセットに基づいて構築された6つのタスクで構成されており、20のLVLMと11のLLM(5つのプロプライエタリモデルと26のオープンウェイトモデルを含む)を評価しました。我々は系統的に、(1)地域的な文化的バイアス、(2)モデルサイズの影響、(3)入力モダリティ、(4)外部の手がかりを検証しました。分析の結果、モデルやタスク全体で西洋文化に対する強いバイアスが明らかになり、モデルサイズと性能の強い相関、マルチモーダル入力と外部の地理的手がかりの有効性が強調されました。さらに、モデルは無形の側面(例:儀式)よりも有形の側面(例:料理)に関する知識をより多く持っており、広範な文化的起源を認識する能力に優れている一方で、より微妙な理解には苦戦することがわかりました。
English
Large Vision-Language Models (LVLMs) have recently gained attention due to
their distinctive performance and broad applicability. While it has been
previously shown that their efficacy in usage scenarios involving non-Western
contexts falls short, existing studies are limited in scope, covering just a
narrow range of cultures, focusing exclusively on a small number of cultural
aspects, or evaluating a limited selection of models on a single task only.
Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive
multimodal benchmark designed to assess a broad spectrum of cultural knowledge
across 144 countries representing six global macro-regions. GIMMICK comprises
six tasks built upon three new datasets that span 728 unique cultural events or
facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary
and 26 open-weight models of all sizes. We systematically examine (1) regional
cultural biases, (2) the influence of model size, (3) input modalities, and (4)
external cues. Our analyses reveal strong biases toward Western cultures across
models and tasks and highlight strong correlations between model size and
performance, as well as the effectiveness of multimodal input and external
geographic cues. We further find that models have more knowledge of tangible
than intangible aspects (e.g., food vs. rituals) and that they excel in
recognizing broad cultural origins but struggle with a more nuanced
understanding.Summary
AI-Generated Summary