MVL-SIB: Een Massaal Meertalige Visueel-Taal Benchmark voor Cross-Modale Topische Matching
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching
February 18, 2025
Auteurs: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI
Samenvatting
Bestaande meertalige visueel-taalkundige (VL) benchmarks beslaan vaak slechts een handvol talen. Als gevolg hiervan richten evaluaties van grote visueel-taalkundige modellen (LVLMs) zich voornamelijk op talen met veel bronnen, wat de behoefte aan evaluatiegegevens voor talen met weinig bronnen onderstreept. Om deze beperking aan te pakken, introduceren we MVL-SIB, een massaal meertalige visueel-taalkundige benchmark die zowel cross-modale als tekstuele thematische matching evalueert over 205 talen — meer dan 100 talen meer dan de meest meertalige bestaande VL benchmarks omvatten. Vervolgens testen we een reeks open-gewicht LVLMs samen met GPT-4o(-mini) op MVL-SIB. Onze resultaten laten zien dat LVLMs moeite hebben met cross-modale thematische matching in talen met weinig bronnen, waarbij ze niet beter presteren dan toeval voor talen zoals N'Koo. Onze analyse toont verder aan dat VL-ondersteuning in LVLMs onevenredig afneemt in vergelijking met tekstuele ondersteuning voor talen met weinig bronnen, zoals blijkt uit de vergelijking van cross-modale en tekstuele thematische matchingprestaties. We merken ook op dat open-gewicht LVLMs geen voordeel halen uit het representeren van een thema met meer dan één afbeelding, wat suggereert dat deze modellen nog niet volledig effectief zijn in het omgaan met taken met meerdere afbeeldingen. Door de prestaties op MVL-SIB te correleren met andere meertalige VL benchmarks, benadrukken we dat MVL-SIB dient als een uitgebreide test van meertalig VL-begrip in LVLMs.
English
Existing multilingual vision-language (VL) benchmarks often only cover a
handful of languages. Consequently, evaluations of large vision-language models
(LVLMs) predominantly target high-resource languages, underscoring the need for
evaluation data for low-resource languages. To address this limitation, we
introduce MVL-SIB, a massively multilingual vision-language benchmark that
evaluates both cross-modal and text-only topical matching across 205 languages
-- over 100 more than the most multilingual existing VL benchmarks encompass.
We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini)
on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic
matching in lower-resource languages, performing no better than chance on
languages like N'Koo. Our analysis further reveals that VL support in LVLMs
declines disproportionately relative to textual support for lower-resource
languages, as evidenced by comparison of cross-modal and text-only topical
matching performance. We further observe that open-weight LVLMs do not benefit
from representing a topic with more than one image, suggesting that these
models are not yet fully effective at handling multi-image tasks. By
correlating performance on MVL-SIB with other multilingual VL benchmarks, we
highlight that MVL-SIB serves as a comprehensive probe of multilingual VL
understanding in LVLMs.Summary
AI-Generated Summary