ChatPaper.aiChatPaper

Maya: Модель с инструкциями, донастроенная для мультиязычного и мультимодального обучения.

Maya: An Instruction Finetuned Multilingual Multimodal Model

December 10, 2024
Авторы: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Аннотация

Быстрое развитие крупных моделей видео-языкового восприятия (VLM) привело к впечатляющим результатам на академических бенчмарках, в основном на широко используемых языках. Однако существуют значительные пробелы в способности текущих VLM обрабатывать языки с ограниченными ресурсами и разнообразные культурные контексты, в значительной степени из-за отсутствия качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают затруднения в понимании языков с ограниченными ресурсами и культурных нюансов таким образом, чтобы избежать токсичности. Для преодоления этих ограничений мы представляем Maya, модель мультимодального мультиязыкового восприятия с открытым исходным кодом. Наши вклады тройные: 1) мультиязыковый набор данных для предварительного обучения изображение-текст на восьми языках, основанный на наборе данных предварительного обучения LLaVA; 2) тщательный анализ токсичности в наборе данных LLaVA, за которым последовало создание новой версии без токсичности на восьми языках; и 3) мультиязыковая модель изображение-текст, поддерживающая эти языки, улучшая культурное и языковое понимание в задачах видео-языкового восприятия. Код доступен по ссылке https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to impressive results on academic benchmarks, primarily in widely spoken languages. However, significant gaps remain in the ability of current VLMs to handle low-resource languages and varied cultural contexts, largely due to a lack of high-quality, diverse, and safety-vetted data. Consequently, these models often struggle to understand low-resource languages and cultural nuances in a manner free from toxicity. To address these limitations, we introduce Maya, an open-source Multimodal Multilingual model. Our contributions are threefold: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity within the LLaVA dataset, followed by the creation of a novel toxicity-free version across eight languages; and 3) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Summary

AI-Generated Summary

PDF292December 11, 2024