Maya: Een instructie gefinetuned meertalig multimodaal model
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
Auteurs: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Samenvatting
De snelle ontwikkeling van grote Vision-Language Modellen (VLM's) heeft geleid tot indrukwekkende resultaten op academische benchmarks, voornamelijk in veel gesproken talen. Er blijven echter aanzienlijke hiaten bestaan in het vermogen van huidige VLM's om om te gaan met talen met weinig bronnen en gevarieerde culturele contexten, grotendeels als gevolg van een gebrek aan hoogwaardige, diverse en veiligheid-gecontroleerde gegevens. Als gevolg hiervan hebben deze modellen vaak moeite om talen met weinig bronnen en culturele nuances te begrijpen op een manier die vrij is van toxiciteit. Om deze beperkingen aan te pakken, introduceren we Maya, een open-source Multimodaal Multilinguaal model. Onze bijdragen zijn drievoudig: 1) een multilinguale afbeelding-tekst pretraining dataset in acht talen, gebaseerd op de LLaVA pretraining dataset; 2) een grondige analyse van toxiciteit binnen de LLaVA dataset, gevolgd door de creatie van een nieuwe toxiciteitvrije versie in acht talen; en 3) een multilinguaal afbeelding-tekst model dat deze talen ondersteunt, waardoor cultureel en taalkundig begrip wordt verbeterd bij visie-taal taken. Code beschikbaar op https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.