ChatPaper.aiChatPaper

Detrás de Maya: Construyendo un Modelo de Lenguaje Visual Multilingüe

Behind Maya: Building a Multilingual Vision Language Model

May 13, 2025
Autores: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI

Resumen

En los últimos tiempos, hemos presenciado un rápido desarrollo de los grandes Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés). Estos han mostrado resultados impresionantes en benchmarks académicos, principalmente en idiomas ampliamente hablados, pero carecen de rendimiento en lenguajes de bajos recursos y contextos culturales diversos. Para abordar estas limitaciones, presentamos Maya, un VLM Multilingüe de código abierto. Nuestras contribuciones son: 1) un conjunto de datos de preentrenamiento multilingüe de imágenes y texto en ocho idiomas, basado en el conjunto de datos de preentrenamiento de LLaVA; y 2) un modelo multilingüe de imágenes y texto que admite estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. El código está disponible en https://github.com/nahidalam/maya.
English
In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Summary

AI-Generated Summary

PDF12May 15, 2025