MVL-SIB: Um Benchmark Massivamente Multilingue de Visão e Linguagem para Correspondência Tópica entre Modalidades
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching
February 18, 2025
Autores: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI
Resumo
Os benchmarks multilingues existentes para visão e linguagem (VL) geralmente cobrem apenas um punhado de idiomas. Consequentemente, as avaliações de modelos de visão e linguagem de grande escala (LVLMs) focam predominantemente em idiomas de alto recurso, destacando a necessidade de dados de avaliação para idiomas de baixo recurso. Para abordar essa limitação, introduzimos o MVL-SIB, um benchmark de visão e linguagem massivamente multilíngue que avalia tanto a correspondência temática intermodal quanto apenas textual em 205 idiomas — mais de 100 a mais do que os benchmarks VL multilíngues existentes mais abrangentes. Em seguida, avaliamos uma variedade de LVLMs de peso aberto, juntamente com o GPT-4o(-mini), no MVL-SIB. Nossos resultados revelam que os LVLMs têm dificuldades na correspondência temática intermodal em idiomas de baixo recurso, apresentando desempenho não melhor que o acaso em idiomas como o N'Koo. Nossa análise ainda revela que o suporte VL nos LVLMs diminui desproporcionalmente em relação ao suporte textual para idiomas de baixo recurso, conforme evidenciado pela comparação do desempenho na correspondência temática intermodal e apenas textual. Além disso, observamos que os LVLMs de peso aberto não se beneficiam da representação de um tópico com mais de uma imagem, sugerindo que esses modelos ainda não são totalmente eficazes no manuseio de tarefas com múltiplas imagens. Ao correlacionar o desempenho no MVL-SIB com outros benchmarks VL multilingues, destacamos que o MVL-SIB serve como uma sonda abrangente para o entendimento multilingue de VL em LVLMs.
English
Existing multilingual vision-language (VL) benchmarks often only cover a
handful of languages. Consequently, evaluations of large vision-language models
(LVLMs) predominantly target high-resource languages, underscoring the need for
evaluation data for low-resource languages. To address this limitation, we
introduce MVL-SIB, a massively multilingual vision-language benchmark that
evaluates both cross-modal and text-only topical matching across 205 languages
-- over 100 more than the most multilingual existing VL benchmarks encompass.
We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini)
on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic
matching in lower-resource languages, performing no better than chance on
languages like N'Koo. Our analysis further reveals that VL support in LVLMs
declines disproportionately relative to textual support for lower-resource
languages, as evidenced by comparison of cross-modal and text-only topical
matching performance. We further observe that open-weight LVLMs do not benefit
from representing a topic with more than one image, suggesting that these
models are not yet fully effective at handling multi-image tasks. By
correlating performance on MVL-SIB with other multilingual VL benchmarks, we
highlight that MVL-SIB serves as a comprehensive probe of multilingual VL
understanding in LVLMs.Summary
AI-Generated Summary