ChatPaper.aiChatPaper

Por trás do Maya: Construindo um Modelo de Linguagem Visual Multilíngue

Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025
Autores: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Resumo

Recentemente, temos observado um rápido desenvolvimento de grandes Modelos de Visão e Linguagem (VLMs). Eles têm demonstrado resultados impressionantes em benchmarks acadêmicos, principalmente em idiomas amplamente falados, mas apresentam desempenho insuficiente em idiomas de baixo recurso e contextos culturais variados. Para abordar essas limitações, apresentamos o Maya, um VLM Multilíngue de código aberto. Nossas contribuições são: 1) um conjunto de dados de pré-treinamento de imagem-texto em oito idiomas, baseado no conjunto de dados de pré-treinamento do LLaVA; e 2) um modelo de imagem-texto multilíngue que suporta esses idiomas, aprimorando a compreensão cultural e linguística em tarefas de visão e linguagem. O código está disponível em https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.
PDF22May 15, 2025