Maya: Um Modelo Multilíngue Multimodal Ajustado por Instruções

Resumo

O rápido desenvolvimento de grandes Modelos de Visão-Linguagem (VLMs) levou a resultados impressionantes em benchmarks acadêmicos, principalmente em idiomas amplamente falados. No entanto, permanecem lacunas significativas na capacidade dos atuais VLMs lidarem com idiomas de recursos limitados e contextos culturais variados, em grande parte devido à falta de dados de alta qualidade, diversificados e seguros. Consequentemente, esses modelos frequentemente têm dificuldade em compreender idiomas de recursos limitados e nuances culturais de forma livre de toxicidade. Para lidar com essas limitações, apresentamos Maya, um modelo Multimodal Multilíngue de código aberto. Nossas contribuições são triplas: 1) um conjunto de dados de pré-treinamento de imagem-texto multilíngue em oito idiomas, baseado no conjunto de dados de pré-treinamento LLaVA; 2) uma análise minuciosa de toxicidade dentro do conjunto de dados LLaVA, seguida pela criação de uma versão livre de toxicidade em oito idiomas; e 3) um modelo de imagem-texto multilíngue que suporta esses idiomas, aprimorando a compreensão cultural e linguística em tarefas de visão-linguagem. Código disponível em https://github.com/nahidalam/maya.

English

The rapid development of large Vision-Language Models (VLMs) has led to impressive results on academic benchmarks, primarily in widely spoken languages. However, significant gaps remain in the ability of current VLMs to handle low-resource languages and varied cultural contexts, largely due to a lack of high-quality, diverse, and safety-vetted data. Consequently, these models often struggle to understand low-resource languages and cultural nuances in a manner free from toxicity. To address these limitations, we introduce Maya, an open-source Multimodal Multilingual model. Our contributions are threefold: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity within the LLaVA dataset, followed by the creation of a novel toxicity-free version across eight languages; and 3) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Maya: Um Modelo Multilíngue Multimodal Ajustado por Instruções

Maya: An Instruction Finetuned Multilingual Multimodal Model

Resumo

Support