MVL-SIB: Un Benchmark Multilingue Massivo Visione-Linguaggio per l'Abbinamento Tematico Cross-Modale
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching
February 18, 2025
Autori: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI
Abstract
I benchmark esistenti per il linguaggio visivo multilingue (VL) spesso coprono solo un numero limitato di lingue. Di conseguenza, le valutazioni dei modelli di linguaggio visivo su larga scala (LVLM) si concentrano prevalentemente su lingue ad alto livello di risorse, evidenziando la necessità di dati di valutazione per lingue a basso livello di risorse. Per affrontare questa limitazione, introduciamo MVL-SIB, un benchmark di linguaggio visivo massicciamente multilingue che valuta sia l'abbinamento tematico cross-modale che quello testuale in 205 lingue — oltre 100 in più rispetto ai benchmark VL esistenti più multilingue. Successivamente, valutiamo una gamma di LVLM open-weight insieme a GPT-4o(-mini) su MVL-SIB. I nostri risultati rivelano che i LVLM faticano nell'abbinamento tematico cross-modale per le lingue a basso livello di risorse, ottenendo prestazioni non migliori del caso per lingue come il N'Koo. La nostra analisi mostra inoltre che il supporto VL nei LVLM diminuisce in modo sproporzionato rispetto al supporto testuale per le lingue a basso livello di risorse, come evidenziato dal confronto tra le prestazioni di abbinamento tematico cross-modale e solo testuale. Osserviamo inoltre che i LVLM open-weight non traggono vantaggio dalla rappresentazione di un argomento con più di un'immagine, suggerendo che questi modelli non sono ancora pienamente efficaci nel gestire compiti multi-immagine. Correlando le prestazioni su MVL-SIB con altri benchmark VL multilingue, evidenziamo che MVL-SIB funge da sonda completa per la comprensione multilingue del linguaggio visivo nei LVLM.
English
Existing multilingual vision-language (VL) benchmarks often only cover a
handful of languages. Consequently, evaluations of large vision-language models
(LVLMs) predominantly target high-resource languages, underscoring the need for
evaluation data for low-resource languages. To address this limitation, we
introduce MVL-SIB, a massively multilingual vision-language benchmark that
evaluates both cross-modal and text-only topical matching across 205 languages
-- over 100 more than the most multilingual existing VL benchmarks encompass.
We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini)
on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic
matching in lower-resource languages, performing no better than chance on
languages like N'Koo. Our analysis further reveals that VL support in LVLMs
declines disproportionately relative to textual support for lower-resource
languages, as evidenced by comparison of cross-modal and text-only topical
matching performance. We further observe that open-weight LVLMs do not benefit
from representing a topic with more than one image, suggesting that these
models are not yet fully effective at handling multi-image tasks. By
correlating performance on MVL-SIB with other multilingual VL benchmarks, we
highlight that MVL-SIB serves as a comprehensive probe of multilingual VL
understanding in LVLMs.Summary
AI-Generated Summary