ChatPaper.aiChatPaper

MVL-SIB : Un benchmark massivement multilingue vision-langage pour l'appariement thématique intermodal

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

February 18, 2025
Auteurs: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI

Résumé

Les benchmarks multilingues existants en vision-langage (VL) ne couvrent souvent qu'un nombre limité de langues. Par conséquent, les évaluations des grands modèles vision-langage (LVLMs) ciblent principalement les langues à ressources élevées, soulignant le besoin de données d'évaluation pour les langues à ressources limitées. Pour pallier cette limitation, nous introduisons MVL-SIB, un benchmark massivement multilingue en vision-langage qui évalue à la fois l'appariement thématique intermodal et textuel à travers 205 langues — soit plus de 100 langues supplémentaires que les benchmarks VL multilingues existants les plus complets. Nous évaluons ensuite une gamme de LVLMs open-weight ainsi que GPT-4o(-mini) sur MVL-SIB. Nos résultats révèlent que les LVLMs peinent à réaliser l'appariement thématique intermodal dans les langues à ressources limitées, ne dépassant pas le niveau du hasard pour des langues comme le N'Koo. Notre analyse montre en outre que le support VL dans les LVLMs diminue de manière disproportionnée par rapport au support textuel pour les langues à ressources limitées, comme en témoigne la comparaison des performances d'appariement thématique intermodal et textuel. Nous observons également que les LVLMs open-weight ne tirent pas avantage à représenter un thème avec plus d'une image, suggérant que ces modèles ne sont pas encore pleinement efficaces pour gérer des tâches multi-images. En corrélant les performances sur MVL-SIB avec d'autres benchmarks VL multilingues, nous mettons en évidence que MVL-SIB sert de sonde exhaustive pour évaluer la compréhension multilingue en vision-langage des LVLMs.
English
Existing multilingual vision-language (VL) benchmarks often only cover a handful of languages. Consequently, evaluations of large vision-language models (LVLMs) predominantly target high-resource languages, underscoring the need for evaluation data for low-resource languages. To address this limitation, we introduce MVL-SIB, a massively multilingual vision-language benchmark that evaluates both cross-modal and text-only topical matching across 205 languages -- over 100 more than the most multilingual existing VL benchmarks encompass. We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini) on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic matching in lower-resource languages, performing no better than chance on languages like N'Koo. Our analysis further reveals that VL support in LVLMs declines disproportionately relative to textual support for lower-resource languages, as evidenced by comparison of cross-modal and text-only topical matching performance. We further observe that open-weight LVLMs do not benefit from representing a topic with more than one image, suggesting that these models are not yet fully effective at handling multi-image tasks. By correlating performance on MVL-SIB with other multilingual VL benchmarks, we highlight that MVL-SIB serves as a comprehensive probe of multilingual VL understanding in LVLMs.

Summary

AI-Generated Summary

PDF32February 20, 2025