GIMMICK -- Punto de Referencia Globalmente Inclusivo para la Evaluación de Conocimiento Cultural Multimodal y Multitarea
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
February 19, 2025
Autores: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher
cs.AI
Resumen
Los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han ganado reciente atención debido a su desempeño distintivo y amplia aplicabilidad. Si bien se ha demostrado previamente que su eficacia en escenarios de uso que involucran contextos no occidentales es limitada, los estudios existentes tienen un alcance reducido, cubriendo solo un estrecho rango de culturas, enfocándose exclusivamente en un pequeño número de aspectos culturales o evaluando una selección limitada de modelos en una sola tarea. Hacia una investigación de LVLMs globalmente inclusiva, presentamos GIMMICK, un extenso benchmark multimodal diseñado para evaluar un amplio espectro de conocimientos culturales en 144 países que representan seis macro-regiones globales. GIMMICK comprende seis tareas basadas en tres nuevos conjuntos de datos que abarcan 728 eventos o facetas culturales únicos, en los cuales evaluamos 20 LVLMs y 11 LLMs, incluyendo cinco modelos propietarios y 26 modelos de código abierto de todos los tamaños. Examinamos sistemáticamente (1) los sesgos culturales regionales, (2) la influencia del tamaño del modelo, (3) las modalidades de entrada y (4) las señales externas. Nuestros análisis revelan fuertes sesgos hacia las culturas occidentales en todos los modelos y tareas, y destacan fuertes correlaciones entre el tamaño del modelo y su rendimiento, así como la efectividad de la entrada multimodal y las señales geográficas externas. Además, encontramos que los modelos tienen más conocimiento sobre aspectos tangibles que intangibles (por ejemplo, comida vs. rituales) y que sobresalen en reconocer orígenes culturales amplios, pero luchan con una comprensión más matizada.
English
Large Vision-Language Models (LVLMs) have recently gained attention due to
their distinctive performance and broad applicability. While it has been
previously shown that their efficacy in usage scenarios involving non-Western
contexts falls short, existing studies are limited in scope, covering just a
narrow range of cultures, focusing exclusively on a small number of cultural
aspects, or evaluating a limited selection of models on a single task only.
Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive
multimodal benchmark designed to assess a broad spectrum of cultural knowledge
across 144 countries representing six global macro-regions. GIMMICK comprises
six tasks built upon three new datasets that span 728 unique cultural events or
facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary
and 26 open-weight models of all sizes. We systematically examine (1) regional
cultural biases, (2) the influence of model size, (3) input modalities, and (4)
external cues. Our analyses reveal strong biases toward Western cultures across
models and tasks and highlight strong correlations between model size and
performance, as well as the effectiveness of multimodal input and external
geographic cues. We further find that models have more knowledge of tangible
than intangible aspects (e.g., food vs. rituals) and that they excel in
recognizing broad cultural origins but struggle with a more nuanced
understanding.Summary
AI-Generated Summary