ChatPaper.aiChatPaper

MVL-SIB: Ein massiv mehrsprachiger Vision-Language-Benchmark für cross-modale thematische Zuordnung

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

February 18, 2025
Autoren: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI

Zusammenfassung

Bestehende multilinguale Vision-Language (VL)-Benchmarks decken oft nur eine Handvoll Sprachen ab. Folglich zielen Evaluierungen von großen Vision-Language-Modellen (LVLMs) überwiegend auf Hochressourcensprachen ab, was den Bedarf an Evaluierungsdaten für Niedrigressourcensprachen unterstreicht. Um diese Einschränkung zu beheben, stellen wir MVL-SIB vor, einen massiv multilingualen Vision-Language-Benchmark, der sowohl cross-modales als auch rein textbasiertes Themen-Matching über 205 Sprachen hinweg evaluiert – mehr als 100 Sprachen mehr als die bisher umfassendsten multilingualen VL-Benchmarks. Anschließend benchmarken wir eine Reihe von Open-Weight-LVLMs zusammen mit GPT-4o(-mini) auf MVL-SIB. Unsere Ergebnisse zeigen, dass LVLMs bei cross-modalem Themen-Matching in Niedrigressourcensprachen Schwierigkeiten haben und bei Sprachen wie N'Koo nicht besser als zufällig abschneiden. Unsere Analyse zeigt weiterhin, dass die VL-Unterstützung in LVLMs im Vergleich zur textuellen Unterstützung für Niedrigressourcensprachen unverhältnismäßig stark abnimmt, was durch den Vergleich der Leistung bei cross-modalem und rein textbasiertem Themen-Matching belegt wird. Wir beobachten außerdem, dass Open-Weight-LVLMs nicht davon profitieren, ein Thema mit mehr als einem Bild darzustellen, was darauf hindeutet, dass diese Modelle noch nicht vollständig effektiv im Umgang mit Multi-Image-Aufgaben sind. Indem wir die Leistung auf MVL-SIB mit anderen multilingualen VL-Benchmarks korrelieren, heben wir hervor, dass MVL-SIB als umfassende Sonde für das multilinguale VL-Verständnis in LVLMs dient.
English
Existing multilingual vision-language (VL) benchmarks often only cover a handful of languages. Consequently, evaluations of large vision-language models (LVLMs) predominantly target high-resource languages, underscoring the need for evaluation data for low-resource languages. To address this limitation, we introduce MVL-SIB, a massively multilingual vision-language benchmark that evaluates both cross-modal and text-only topical matching across 205 languages -- over 100 more than the most multilingual existing VL benchmarks encompass. We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini) on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic matching in lower-resource languages, performing no better than chance on languages like N'Koo. Our analysis further reveals that VL support in LVLMs declines disproportionately relative to textual support for lower-resource languages, as evidenced by comparison of cross-modal and text-only topical matching performance. We further observe that open-weight LVLMs do not benefit from representing a topic with more than one image, suggesting that these models are not yet fully effective at handling multi-image tasks. By correlating performance on MVL-SIB with other multilingual VL benchmarks, we highlight that MVL-SIB serves as a comprehensive probe of multilingual VL understanding in LVLMs.

Summary

AI-Generated Summary

PDF32February 20, 2025