ChatPaper.aiChatPaper

Hinter Maya: Entwicklung eines mehrsprachigen Vision-Sprach-Modells

Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025
Autoren: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Zusammenfassung

In jüngster Zeit haben wir eine rasante Entwicklung großer Vision-Language-Modelle (VLMs) beobachtet. Diese haben beeindruckende Ergebnisse auf akademischen Benchmarks gezeigt, vor allem in weit verbreiteten Sprachen, weisen jedoch Schwächen bei ressourcenarmen Sprachen und unterschiedlichen kulturellen Kontexten auf. Um diese Einschränkungen zu überwinden, stellen wir Maya vor, ein Open-Source-Multilingual-VLM. Unsere Beiträge sind: 1) ein mehrsprachiges Bild-Text-Pretraining-Datensatz in acht Sprachen, basierend auf dem LLaVA-Pretraining-Datensatz; und 2) ein mehrsprachiges Bild-Text-Modell, das diese Sprachen unterstützt und das kulturelle und linguistische Verständnis in Vision-Language-Aufgaben verbessert. Der Code ist verfügbar unter https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.
PDF12May 15, 2025