GIMMICK — Глобально инклюзивный мультимодальный мультизадачный бенчмарк культурных знаний
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
February 19, 2025
Авторы: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI
Аннотация
Крупные визуально-языковые модели (LVLMs) недавно привлекли внимание благодаря их выдающейся производительности и широкой применимости. Хотя ранее было показано, что их эффективность в сценариях использования, связанных с не-западными контекстами, оставляет желать лучшего, существующие исследования ограничены по охвату, затрагивая лишь узкий круг культур, сосредотачиваясь исключительно на небольшом количестве культурных аспектов или оценивая ограниченный набор моделей только на одной задаче. В направлении глобально инклюзивных исследований LVLM мы представляем GIMMICK — обширный мультимодальный бенчмарк, разработанный для оценки широкого спектра культурных знаний в 144 странах, представляющих шесть глобальных макрорегионов. GIMMICK включает шесть задач, основанных на трех новых наборах данных, охватывающих 728 уникальных культурных событий или аспектов, на которых мы оценили 20 LVLM и 11 LLM, включая пять проприетарных и 26 моделей с открытыми весами всех размеров. Мы систематически исследуем (1) региональные культурные предубеждения, (2) влияние размера модели, (3) входные модальности и (4) внешние подсказки. Наши анализы выявляют сильные предубеждения в сторону западных культур среди моделей и задач, а также подчеркивают сильную корреляцию между размером модели и производительностью, а также эффективность мультимодального ввода и внешних географических подсказок. Мы также обнаруживаем, что модели обладают большими знаниями о материальных, чем о нематериальных аспектах (например, еда vs. ритуалы), и что они преуспевают в распознавании широких культурных истоков, но испытывают трудности с более тонким пониманием.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to
their distinctive performance and broad applicability. While it has been
previously shown that their efficacy in usage scenarios involving non-Western
contexts falls short, existing studies are limited in scope, covering just a
narrow range of cultures, focusing exclusively on a small number of cultural
aspects, or evaluating a limited selection of models on a single task only.
Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive
multimodal benchmark designed to assess a broad spectrum of cultural knowledge
across 144 countries representing six global macro-regions. GIMMICK comprises
six tasks built upon three new datasets that span 728 unique cultural events or
facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary
and 26 open-weight models of all sizes. We systematically examine (1) regional
cultural biases, (2) the influence of model size, (3) input modalities, and (4)
external cues. Our analyses reveal strong biases toward Western cultures across
models and tasks and highlight strong correlations between model size and
performance, as well as the effectiveness of multimodal input and external
geographic cues. We further find that models have more knowledge of tangible
than intangible aspects (e.g., food vs. rituals) and that they excel in
recognizing broad cultural origins but struggle with a more nuanced
understanding.Summary
AI-Generated Summary