ChatPaper.aiChatPaper

MVL-SIB: Un punto de referencia masivamente multilingüe para la correspondencia temática multimodal entre visión y lenguaje

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

February 18, 2025
Autores: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI

Resumen

Los puntos de referencia multilingües existentes en visión y lenguaje (VL) suelen cubrir solo un puñado de idiomas. En consecuencia, las evaluaciones de los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés) se centran predominantemente en idiomas de alto recurso, lo que subraya la necesidad de datos de evaluación para idiomas de bajo recurso. Para abordar esta limitación, presentamos MVL-SIB, un punto de referencia masivamente multilingüe de visión y lenguaje que evalúa tanto la correspondencia temática multimodal como la basada únicamente en texto en 205 idiomas, más de 100 que los puntos de referencia VL multilingües existentes más completos. Luego, evaluamos una variedad de LVLM de peso abierto junto con GPT-4o(-mini) en MVL-SIB. Nuestros resultados revelan que los LVLM tienen dificultades en la correspondencia temática multimodal en idiomas de bajo recurso, obteniendo un rendimiento no mejor que el azar en idiomas como el N'Koo. Nuestro análisis también muestra que el soporte VL en los LVLM disminuye de manera desproporcionada en comparación con el soporte textual para idiomas de bajo recurso, como lo evidencia la comparación del rendimiento en la correspondencia temática multimodal y basada únicamente en texto. Además, observamos que los LVLM de peso abierto no se benefician de representar un tema con más de una imagen, lo que sugiere que estos modelos aún no son completamente efectivos para manejar tareas con múltiples imágenes. Al correlacionar el rendimiento en MVL-SIB con otros puntos de referencia VL multilingües, destacamos que MVL-SIB sirve como una sonda integral para evaluar la comprensión multilingüe de VL en los LVLM.
English
Existing multilingual vision-language (VL) benchmarks often only cover a handful of languages. Consequently, evaluations of large vision-language models (LVLMs) predominantly target high-resource languages, underscoring the need for evaluation data for low-resource languages. To address this limitation, we introduce MVL-SIB, a massively multilingual vision-language benchmark that evaluates both cross-modal and text-only topical matching across 205 languages -- over 100 more than the most multilingual existing VL benchmarks encompass. We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini) on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic matching in lower-resource languages, performing no better than chance on languages like N'Koo. Our analysis further reveals that VL support in LVLMs declines disproportionately relative to textual support for lower-resource languages, as evidenced by comparison of cross-modal and text-only topical matching performance. We further observe that open-weight LVLMs do not benefit from representing a topic with more than one image, suggesting that these models are not yet fully effective at handling multi-image tasks. By correlating performance on MVL-SIB with other multilingual VL benchmarks, we highlight that MVL-SIB serves as a comprehensive probe of multilingual VL understanding in LVLMs.

Summary

AI-Generated Summary

PDF32February 20, 2025