Maya: Un Modelo Multilingüe Multimodal Ajustado mediante Instrucciones
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
Autores: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Resumen
El rápido desarrollo de grandes Modelos Visión-Lenguaje (VLMs, por sus siglas en inglés) ha llevado a resultados impresionantes en pruebas académicas, principalmente en idiomas ampliamente hablados. Sin embargo, persisten brechas significativas en la capacidad de los actuales VLMs para manejar idiomas de recursos limitados y contextos culturales variados, en gran parte debido a la falta de datos de alta calidad, diversos y verificados en cuanto a seguridad. En consecuencia, estos modelos a menudo tienen dificultades para comprender idiomas de recursos limitados y matices culturales de manera libre de toxicidad. Para abordar estas limitaciones, presentamos Maya, un modelo Multimodal Multilingüe de código abierto. Nuestras contribuciones son triples: 1) un conjunto de datos de preentrenamiento imagen-texto multilingüe en ocho idiomas, basado en el conjunto de datos de preentrenamiento LLaVA; 2) un análisis exhaustivo de toxicidad dentro del conjunto de datos LLaVA, seguido por la creación de una versión novedosa libre de toxicidad en ocho idiomas; y 3) un modelo imagen-texto multilingüe que soporta estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. Código disponible en https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary