За кулисами Maya: создание многоязычной визуально-языковой модели

Аннотация

В последнее время мы наблюдаем стремительное развитие крупных моделей для обработки зрения и языка (Vision-Language Models, VLMs). Эти модели демонстрируют впечатляющие результаты на академических тестах, в основном для широко распространённых языков, но их производительность оставляет желать лучшего для языков с ограниченными ресурсами и в различных культурных контекстах. Чтобы устранить эти ограничения, мы представляем Maya — открытую многоязычную модель VLM. Наши основные вклады: 1) многоязычный набор данных для предварительного обучения на изображениях и текстах на восьми языках, основанный на наборе данных LLaVA; и 2) многоязычная модель для обработки изображений и текстов, поддерживающая эти языки, что улучшает понимание культурных и лингвистических аспектов в задачах, связанных с обработкой зрения и языка. Код доступен по адресу https://github.com/nahidalam/maya.

English

In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

За кулисами Maya: создание многоязычной визуально-языковой модели

Behind Maya: Building a Multilingual Vision Language Model

Аннотация

Support