Maya: Um Modelo Multilíngue Multimodal Ajustado por Instruções
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
Autores: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
Resumo
O rápido desenvolvimento de grandes Modelos de Visão-Linguagem (VLMs) levou a resultados impressionantes em benchmarks acadêmicos, principalmente em idiomas amplamente falados. No entanto, permanecem lacunas significativas na capacidade dos atuais VLMs lidarem com idiomas de recursos limitados e contextos culturais variados, em grande parte devido à falta de dados de alta qualidade, diversificados e seguros. Consequentemente, esses modelos frequentemente têm dificuldade em compreender idiomas de recursos limitados e nuances culturais de forma livre de toxicidade. Para lidar com essas limitações, apresentamos Maya, um modelo Multimodal Multilíngue de código aberto. Nossas contribuições são triplas: 1) um conjunto de dados de pré-treinamento de imagem-texto multilíngue em oito idiomas, baseado no conjunto de dados de pré-treinamento LLaVA; 2) uma análise minuciosa de toxicidade dentro do conjunto de dados LLaVA, seguida pela criação de uma versão livre de toxicidade em oito idiomas; e 3) um modelo de imagem-texto multilíngue que suporta esses idiomas, aprimorando a compreensão cultural e linguística em tarefas de visão-linguagem. Código disponível em https://github.com/nahidalam/maya.
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary