Dallah : Un modèle de langage multimodal sensible aux dialectes pour l'arabe

papers.abstract

Les récents progrès ont considérablement amélioré les capacités des modèles de langage multimodaux de grande taille (MLLMs) à générer et à comprendre le contenu image-texte. Malgré ces succès, les avancées sont principalement limitées à l'anglais en raison de la rareté de ressources multimodales de haute qualité dans d'autres langues. Cette limitation entrave le développement de modèles compétitifs dans des langues telles que l'arabe. Pour remédier à cette situation, nous présentons un assistant multimodal arabe efficace, baptisé Dallah, qui utilise un modèle de langage avancé basé sur LLaMA-2 pour faciliter les interactions multimodales. Dallah démontre des performances de pointe parmi les MLLMs arabes. Grâce au fine-tuning de six dialectes arabes, Dallah montre sa capacité à gérer des interactions dialectales complexes intégrant à la fois des éléments textuels et visuels. Le modèle excelle dans deux tests de référence : l'un évaluant ses performances en arabe standard moderne (MSA) et l'autre spécifiquement conçu pour évaluer les réponses dialectales. Au-delà de ses performances robustes dans les tâches d'interaction multimodale, Dallah a le potentiel de tracer la voie pour le développement ultérieur de MLLMs arabes sensibles aux dialectes.

English

Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.

Dallah : Un modèle de langage multimodal sensible aux dialectes pour l'arabe

Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

papers.abstract

Support