ChatPaper.aiChatPaper

Achter Maya: Het bouwen van een meertalig visueel taalmodel

Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025
Auteurs: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Samenvatting

De laatste tijd hebben we een snelle ontwikkeling gezien van grote Vision-Language Models (VLMs). Deze hebben indrukwekkende resultaten laten zien op academische benchmarks, voornamelijk in veelgesproken talen, maar presteren minder goed op talen met beperkte bronnen en diverse culturele contexten. Om deze beperkingen aan te pakken, introduceren we Maya, een open-source Multilingual VLM. Onze bijdragen zijn: 1) een meertalige beeld-tekst pretrainingsdataset in acht talen, gebaseerd op de LLaVA pretrainingsdataset; en 2) een meertalig beeld-tekst model dat deze talen ondersteunt, waardoor het culturele en linguïstische begrip in vision-language taken wordt verbeterd. Code is beschikbaar op https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Summary

AI-Generated Summary

PDF12May 15, 2025