Важность всех языков: оценка LMM на культурно разнообразных 100 языках

Аннотация

Существующие большие мультимодальные модели (LMM) обычно сосредотачиваются только на нескольких регионах и языках. Поскольку LMM продолжают улучшаться, становится все более важным обеспечить их понимание культурных контекстов, уважение к местным чувствительностям и поддержку языков с ограниченными ресурсами, эффективно интегрируя соответствующие визуальные подсказки. В поисках культурно разнообразных глобальных мультимодальных моделей наш предложенный Бенчмарк "Все Языки Важны" (ALM-bench) представляет собой крупнейшее и наиболее всестороннее усилие на сегодняшний день по оценке LMM на 100 языках. ALM-bench ставит перед существующими моделями задачу проверить их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая множество языков с ограниченными ресурсами, традиционно недостаточно представленных в исследованиях LMM. Бенчмарк предлагает надежную и тонкую систему оценки, включающую различные форматы вопросов, включая верно/неверно, выбор из нескольких вариантов и открытые вопросы, которые дополнительно разделены на категории коротких и длинных ответов. Дизайн ALM-bench обеспечивает всестороннюю оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для захвата богатой мозаики мировых культур ALM-bench тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и обрядов до известных личностей и праздников. Через это ALM-bench не только предоставляет строгую площадку для тестирования передовых открытых и закрытых источников LMM, но также подчеркивает важность культурной и лингвистической инклюзивности, поощряя разработку моделей, способных эффективно обслуживать разнообразные глобальные популяции. Наш бенчмарк доступен публично.

English

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model's ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.

Важность всех языков: оценка LMM на культурно разнообразных 100 языках

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Аннотация

Support