ChatPaper.aiChatPaper

Maya: Ein instruktionsfeinabgestimmtes mehrsprachiges multimodales Modell

Maya: An Instruction Finetuned Multilingual Multimodal Model

December 10, 2024
Autoren: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Zusammenfassung

Die rasante Entwicklung großer Vision-Language-Modelle (VLMs) hat zu beeindruckenden Ergebnissen bei akademischen Benchmarks geführt, hauptsächlich in weit verbreiteten Sprachen. Es bestehen jedoch weiterhin signifikante Lücken in der Fähigkeit der aktuellen VLMs, mit Sprachen mit geringen Ressourcen und unterschiedlichen kulturellen Kontexten umzugehen, hauptsächlich aufgrund eines Mangels an hochwertigen, vielfältigen und sicherheitsgeprüften Daten. Folglich haben diese Modelle oft Schwierigkeiten, Sprachen mit geringen Ressourcen und kulturelle Feinheiten auf eine Weise zu verstehen, die frei von Toxizität ist. Um diese Einschränkungen anzugehen, stellen wir Maya vor, ein Open-Source Multimodal Multilingual-Modell. Unsere Beiträge sind dreifach: 1) ein mehrsprachiger Bild-Text-Pretraining-Datensatz in acht Sprachen, basierend auf dem LLaVA-Pretraining-Datensatz; 2) eine gründliche Analyse der Toxizität innerhalb des LLaVA-Datensatzes, gefolgt von der Erstellung einer neuartigen toxizitätsfreien Version in acht Sprachen; und 3) ein mehrsprachiges Bild-Text-Modell, das diese Sprachen unterstützt und das kulturelle und sprachliche Verständnis bei Vision-Language-Aufgaben verbessert. Der Code ist verfügbar unter https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to impressive results on academic benchmarks, primarily in widely spoken languages. However, significant gaps remain in the ability of current VLMs to handle low-resource languages and varied cultural contexts, largely due to a lack of high-quality, diverse, and safety-vetted data. Consequently, these models often struggle to understand low-resource languages and cultural nuances in a manner free from toxicity. To address these limitations, we introduce Maya, an open-source Multimodal Multilingual model. Our contributions are threefold: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity within the LLaVA dataset, followed by the creation of a novel toxicity-free version across eight languages; and 3) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.
PDF292December 11, 2024