Dallah: Un modelo de lenguaje grande multimodal consciente del dialecto para el árabe
Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic
July 25, 2024
Autores: Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed
cs.AI
Resumen
Los avances recientes han mejorado significativamente las capacidades de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) en la generación y comprensión de contenido de imagen a texto. A pesar de estos éxitos, el progreso se limita principalmente al inglés debido a la escasez de recursos multimodales de alta calidad en otros idiomas. Esta limitación obstaculiza el desarrollo de modelos competitivos en idiomas como el árabe. Para aliviar esta situación, presentamos un asistente árabe multimodal eficiente, llamado Dallah, que utiliza un modelo de lenguaje avanzado basado en LLaMA-2 para facilitar las interacciones multimodales. Dallah demuestra un rendimiento de vanguardia en MLLMs en árabe. A través del ajuste fino de seis dialectos árabes, Dallah muestra su capacidad para manejar interacciones dialectales complejas que incorporan elementos tanto textuales como visuales. El modelo sobresale en dos pruebas de referencia: una evaluando su rendimiento en Árabe Estándar Moderno (MSA) y otra diseñada específicamente para evaluar respuestas dialectales. Más allá de su sólido rendimiento en tareas de interacción multimodal, Dallah tiene el potencial de allanar el camino para un mayor desarrollo de MLLMs en árabe con conciencia dialectal.
English
Recent advancements have significantly enhanced the capabilities of
Multimodal Large Language Models (MLLMs) in generating and understanding
image-to-text content. Despite these successes, progress is predominantly
limited to English due to the scarcity of high quality multimodal resources in
other languages. This limitation impedes the development of competitive models
in languages such as Arabic. To alleviate this situation, we introduce an
efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced
language model based on LLaMA-2 to facilitate multimodal interactions. Dallah
demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning
six Arabic dialects, Dallah showcases its capability to handle complex
dialectal interactions incorporating both textual and visual elements. The
model excels in two benchmark tests: one evaluating its performance on Modern
Standard Arabic (MSA) and another specifically designed to assess dialectal
responses. Beyond its robust performance in multimodal interaction tasks,
Dallah has the potential to pave the way for further development of
dialect-aware Arabic MLLMs.