GIMMICK -- Benchmark Globalmente Inclusivo de Conhecimento Cultural Multimodal e Multitarefa
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
February 19, 2025
Autores: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI
Resumo
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) recentemente ganharam atenção devido ao seu desempenho distintivo e ampla aplicabilidade. Embora já tenha sido demonstrado que sua eficácia em cenários de uso envolvendo contextos não ocidentais é limitada, os estudos existentes são restritos em escopo, abrangendo apenas um pequeno conjunto de culturas, focando exclusivamente em um número reduzido de aspectos culturais ou avaliando uma seleção limitada de modelos em uma única tarefa. Em direção a uma pesquisa de LVLMs globalmente inclusiva, introduzimos o GIMMICK, um benchmark multimodal extensivo projetado para avaliar um amplo espectro de conhecimento cultural em 144 países representando seis macrorregiões globais. O GIMMICK compreende seis tarefas construídas sobre três novos conjuntos de dados que abrangem 728 eventos ou facetas culturais únicos, nos quais avaliamos 20 LVLMs e 11 LLMs, incluindo cinco modelos proprietários e 26 modelos de código aberto de todos os tamanhos. Examinamos sistematicamente (1) vieses culturais regionais, (2) a influência do tamanho do modelo, (3) modalidades de entrada e (4) pistas externas. Nossas análises revelam fortes vieses em direção a culturas ocidentais entre modelos e tarefas e destacam fortes correlações entre o tamanho do modelo e o desempenho, bem como a eficácia da entrada multimodal e de pistas geográficas externas. Além disso, descobrimos que os modelos têm mais conhecimento sobre aspectos tangíveis do que intangíveis (por exemplo, comida vs. rituais) e que se destacam em reconhecer origens culturais amplas, mas lutam para compreender nuances mais específicas.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to
their distinctive performance and broad applicability. While it has been
previously shown that their efficacy in usage scenarios involving non-Western
contexts falls short, existing studies are limited in scope, covering just a
narrow range of cultures, focusing exclusively on a small number of cultural
aspects, or evaluating a limited selection of models on a single task only.
Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive
multimodal benchmark designed to assess a broad spectrum of cultural knowledge
across 144 countries representing six global macro-regions. GIMMICK comprises
six tasks built upon three new datasets that span 728 unique cultural events or
facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary
and 26 open-weight models of all sizes. We systematically examine (1) regional
cultural biases, (2) the influence of model size, (3) input modalities, and (4)
external cues. Our analyses reveal strong biases toward Western cultures across
models and tasks and highlight strong correlations between model size and
performance, as well as the effectiveness of multimodal input and external
geographic cues. We further find that models have more knowledge of tangible
than intangible aspects (e.g., food vs. rituals) and that they excel in
recognizing broad cultural origins but struggle with a more nuanced
understanding.Summary
AI-Generated Summary