ChatPaper.aiChatPaper

За кулисами Maya: создание многоязычной визуально-языковой модели

Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025
Авторы: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Аннотация

В последнее время мы наблюдаем стремительное развитие крупных моделей для обработки зрения и языка (Vision-Language Models, VLMs). Эти модели демонстрируют впечатляющие результаты на академических тестах, в основном для широко распространённых языков, но их производительность оставляет желать лучшего для языков с ограниченными ресурсами и в различных культурных контекстах. Чтобы устранить эти ограничения, мы представляем Maya — открытую многоязычную модель VLM. Наши основные вклады: 1) многоязычный набор данных для предварительного обучения на изображениях и текстах на восьми языках, основанный на наборе данных LLaVA; и 2) многоязычная модель для обработки изображений и текстов, поддерживающая эти языки, что улучшает понимание культурных и лингвистических аспектов в задачах, связанных с обработкой зрения и языка. Код доступен по адресу https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Summary

AI-Generated Summary

PDF12May 15, 2025