ChatPaper.aiChatPaper

Derrière Maya : Construction d'un modèle de langage visuel multilingue

Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025
Auteurs: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Résumé

Ces dernières années, nous avons assisté à un développement rapide des grands modèles vision-langage (VLMs). Ces modèles ont démontré des résultats impressionnants sur les benchmarks académiques, principalement pour les langues largement parlées, mais présentent des lacunes en ce qui concerne les langues à ressources limitées et les contextes culturels variés. Pour pallier ces limitations, nous introduisons Maya, un VLM multilingue open-source. Nos contributions sont les suivantes : 1) un jeu de données multilingue de pré-entraînement image-texte dans huit langues, basé sur le jeu de données de pré-entraînement LLaVA ; et 2) un modèle image-texte multilingue prenant en charge ces langues, améliorant ainsi la compréhension culturelle et linguistique dans les tâches vision-langage. Le code est disponible à l'adresse suivante : https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Summary

AI-Generated Summary

PDF12May 15, 2025