Derrière Maya : Construction d'un modèle de langage visuel multilingue
Behind Maya: Building a Multilingual Vision Language Model
May 13, 2025
Auteurs: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Résumé
Ces dernières années, nous avons assisté à un développement rapide des grands modèles vision-langage (VLMs). Ces modèles ont démontré des résultats impressionnants sur les benchmarks académiques, principalement pour les langues largement parlées, mais présentent des lacunes en ce qui concerne les langues à ressources limitées et les contextes culturels variés. Pour pallier ces limitations, nous introduisons Maya, un VLM multilingue open-source. Nos contributions sont les suivantes : 1) un jeu de données multilingue de pré-entraînement image-texte dans huit langues, basé sur le jeu de données de pré-entraînement LLaVA ; et 2) un modèle image-texte multilingue prenant en charge ces langues, améliorant ainsi la compréhension culturelle et linguistique dans les tâches vision-langage. Le code est disponible à l'adresse suivante : https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language
Models (VLMs). They have shown impressive results on academic benchmarks,
primarily in widely spoken languages but lack performance on low-resource
languages and varied cultural contexts. To address these limitations, we
introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a
multilingual image-text pretraining dataset in eight languages, based on the
LLaVA pretraining dataset; and 2) a multilingual image-text model supporting
these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary