За кулисами Maya: создание многоязычной визуально-языковой модели
Behind Maya: Building a Multilingual Vision Language Model
May 13, 2025
Авторы: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Аннотация
В последнее время мы наблюдаем стремительное развитие крупных моделей для обработки зрения и языка (Vision-Language Models, VLMs). Эти модели демонстрируют впечатляющие результаты на академических тестах, в основном для широко распространённых языков, но их производительность оставляет желать лучшего для языков с ограниченными ресурсами и в различных культурных контекстах. Чтобы устранить эти ограничения, мы представляем Maya — открытую многоязычную модель VLM. Наши основные вклады: 1) многоязычный набор данных для предварительного обучения на изображениях и текстах на восьми языках, основанный на наборе данных LLaVA; и 2) многоязычная модель для обработки изображений и текстов, поддерживающая эти языки, что улучшает понимание культурных и лингвистических аспектов в задачах, связанных с обработкой зрения и языка. Код доступен по адресу https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language
Models (VLMs). They have shown impressive results on academic benchmarks,
primarily in widely spoken languages but lack performance on low-resource
languages and varied cultural contexts. To address these limitations, we
introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a
multilingual image-text pretraining dataset in eight languages, based on the
LLaVA pretraining dataset; and 2) a multilingual image-text model supporting
these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary