ChatPaper.aiChatPaper

GIMMICK -- グローバルに包括的なマルチモーダル・マルチタスク文化知識ベンチマーク

GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

February 19, 2025
著者: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI

要旨

大規模視覚言語モデル(LVLM)は、その卓越した性能と幅広い適用可能性から最近注目を集めています。これまで、非西洋文脈を含む使用シナリオにおける有効性が不十分であることが示されてきましたが、既存の研究は範囲が限定的で、少数の文化にしか及んでおらず、特定の文化的側面にのみ焦点を当てているか、単一のタスクにおいて限られたモデルのみを評価しています。グローバルに包括的なLVLM研究に向けて、我々はGIMMICKを導入します。これは、6つのグローバルマクロ地域を代表する144カ国にわたる広範な文化的知識を評価するために設計された大規模なマルチモーダルベンチマークです。GIMMICKは、728のユニークな文化的イベントまたは側面にまたがる3つの新しいデータセットに基づいて構築された6つのタスクで構成されており、20のLVLMと11のLLM(5つのプロプライエタリモデルと26のオープンウェイトモデルを含む)を評価しました。我々は系統的に、(1)地域的な文化的バイアス、(2)モデルサイズの影響、(3)入力モダリティ、(4)外部の手がかりを検証しました。分析の結果、モデルやタスク全体で西洋文化に対する強いバイアスが明らかになり、モデルサイズと性能の強い相関、マルチモーダル入力と外部の地理的手がかりの有効性が強調されました。さらに、モデルは無形の側面(例:儀式)よりも有形の側面(例:料理)に関する知識をより多く持っており、広範な文化的起源を認識する能力に優れている一方で、より微妙な理解には苦戦することがわかりました。
English
Large Vision-Language Models (LVLMs) have recently gained attention due to their distinctive performance and broad applicability. While it has been previously shown that their efficacy in usage scenarios involving non-Western contexts falls short, existing studies are limited in scope, covering just a narrow range of cultures, focusing exclusively on a small number of cultural aspects, or evaluating a limited selection of models on a single task only. Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive multimodal benchmark designed to assess a broad spectrum of cultural knowledge across 144 countries representing six global macro-regions. GIMMICK comprises six tasks built upon three new datasets that span 728 unique cultural events or facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary and 26 open-weight models of all sizes. We systematically examine (1) regional cultural biases, (2) the influence of model size, (3) input modalities, and (4) external cues. Our analyses reveal strong biases toward Western cultures across models and tasks and highlight strong correlations between model size and performance, as well as the effectiveness of multimodal input and external geographic cues. We further find that models have more knowledge of tangible than intangible aspects (e.g., food vs. rituals) and that they excel in recognizing broad cultural origins but struggle with a more nuanced understanding.

Summary

AI-Generated Summary

PDF32February 20, 2025