ChatPaper.aiChatPaper

MVL-SIB: Масштабный мультиязычный бенчмарк для сопоставления тем в задачах взаимодействия визуальных и текстовых данных

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

February 18, 2025
Авторы: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI

Аннотация

Существующие мультиязычные бенчмарки для задач, связанных с визуальным и языковым восприятием (vision-language, VL), часто охватывают лишь ограниченное количество языков. В результате оценки крупных моделей, работающих с визуальными и языковыми данными (large vision-language models, LVLMs), в основном сосредоточены на языках с высоким уровнем ресурсной обеспеченности, что подчеркивает необходимость в данных для оценки языков с низким уровнем ресурсов. Чтобы устранить этот недостаток, мы представляем MVL-SIB — массово мультиязычный бенчмарк для задач VL, который оценивает как кросс-модальное, так и текстовое тематическое соответствие для 205 языков — более чем на 100 языков больше, чем охватывают самые мультиязычные существующие бенчмарки VL. Затем мы тестируем ряд открытых моделей LVLM вместе с GPT-4o(-mini) на MVL-SIB. Наши результаты показывают, что LVLM испытывают трудности с кросс-модальным тематическим соответствием для языков с низким уровнем ресурсов, демонстрируя результаты не лучше случайных для таких языков, как N'Koo. Наш анализ также выявляет, что поддержка VL в LVLM снижается непропорционально по сравнению с текстовой поддержкой для языков с низким уровнем ресурсов, что подтверждается сравнением производительности в кросс-модальном и текстовом тематическом соответствии. Мы также отмечаем, что открытые модели LVLM не получают преимущества от представления темы с использованием более чем одного изображения, что указывает на то, что эти модели пока не полностью эффективны в задачах, связанных с обработкой нескольких изображений. Сопоставляя результаты на MVL-SIB с другими мультиязычными бенчмарками VL, мы подчеркиваем, что MVL-SIB служит всесторонним инструментом для исследования мультиязычного понимания VL в LVLM.
English
Existing multilingual vision-language (VL) benchmarks often only cover a handful of languages. Consequently, evaluations of large vision-language models (LVLMs) predominantly target high-resource languages, underscoring the need for evaluation data for low-resource languages. To address this limitation, we introduce MVL-SIB, a massively multilingual vision-language benchmark that evaluates both cross-modal and text-only topical matching across 205 languages -- over 100 more than the most multilingual existing VL benchmarks encompass. We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini) on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic matching in lower-resource languages, performing no better than chance on languages like N'Koo. Our analysis further reveals that VL support in LVLMs declines disproportionately relative to textual support for lower-resource languages, as evidenced by comparison of cross-modal and text-only topical matching performance. We further observe that open-weight LVLMs do not benefit from representing a topic with more than one image, suggesting that these models are not yet fully effective at handling multi-image tasks. By correlating performance on MVL-SIB with other multilingual VL benchmarks, we highlight that MVL-SIB serves as a comprehensive probe of multilingual VL understanding in LVLMs.

Summary

AI-Generated Summary

PDF32February 20, 2025