Dallah: Un modelo de lenguaje grande multimodal consciente del dialecto para el árabe

Resumen

Los avances recientes han mejorado significativamente las capacidades de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) en la generación y comprensión de contenido de imagen a texto. A pesar de estos éxitos, el progreso se limita principalmente al inglés debido a la escasez de recursos multimodales de alta calidad en otros idiomas. Esta limitación obstaculiza el desarrollo de modelos competitivos en idiomas como el árabe. Para aliviar esta situación, presentamos un asistente árabe multimodal eficiente, llamado Dallah, que utiliza un modelo de lenguaje avanzado basado en LLaMA-2 para facilitar las interacciones multimodales. Dallah demuestra un rendimiento de vanguardia en MLLMs en árabe. A través del ajuste fino de seis dialectos árabes, Dallah muestra su capacidad para manejar interacciones dialectales complejas que incorporan elementos tanto textuales como visuales. El modelo sobresale en dos pruebas de referencia: una evaluando su rendimiento en Árabe Estándar Moderno (MSA) y otra diseñada específicamente para evaluar respuestas dialectales. Más allá de su sólido rendimiento en tareas de interacción multimodal, Dallah tiene el potencial de allanar el camino para un mayor desarrollo de MLLMs en árabe con conciencia dialectal.

English

Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.

Dallah: Un modelo de lenguaje grande multimodal consciente del dialecto para el árabe

Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

Resumen

Support