Maya : Un modèle multimodal multilingue affiné par instructions
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
Auteurs: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Résumé
Le développement rapide des grands Modèles Vision- Langage (VLM) a conduit à des résultats impressionnants sur les référentiels académiques, principalement dans les langues largement parlées. Cependant, des écarts significatifs persistent dans la capacité des VLM actuels à traiter les langues à faibles ressources et les contextes culturels variés, principalement en raison d'un manque de données diverses, de haute qualité et vérifiées pour la sécurité. Par conséquent, ces modèles ont souvent du mal à comprendre les langues à faibles ressources et les subtilités culturelles de manière exempte de toxicité. Pour remédier à ces limitations, nous présentons Maya, un modèle Multimodal Multilingue open-source. Nos contributions sont triples : 1) un ensemble de données de pré-entraînement image-texte multilingue dans huit langues, basé sur l'ensemble de données de pré-entraînement LLaVA ; 2) une analyse approfondie de la toxicité au sein de l'ensemble de données LLaVA, suivie de la création d'une version novatrice exempte de toxicité dans huit langues ; et 3) un modèle image-texte multilingue prenant en charge ces langues, améliorant la compréhension culturelle et linguistique dans les tâches vision-langage. Code disponible sur https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary