Detrás de Maya: Construyendo un Modelo de Lenguaje Visual Multilingüe

Resumen

En los últimos tiempos, hemos presenciado un rápido desarrollo de los grandes Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés). Estos han mostrado resultados impresionantes en benchmarks académicos, principalmente en idiomas ampliamente hablados, pero carecen de rendimiento en lenguajes de bajos recursos y contextos culturales diversos. Para abordar estas limitaciones, presentamos Maya, un VLM Multilingüe de código abierto. Nuestras contribuciones son: 1) un conjunto de datos de preentrenamiento multilingüe de imágenes y texto en ocho idiomas, basado en el conjunto de datos de preentrenamiento de LLaVA; y 2) un modelo multilingüe de imágenes y texto que admite estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. El código está disponible en https://github.com/nahidalam/maya.

English

In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.

Detrás de Maya: Construyendo un Modelo de Lenguaje Visual Multilingüe

Behind Maya: Building a Multilingual Vision Language Model

Resumen

Support