Dallah : Un modèle de langage multimodal sensible aux dialectes pour l'arabe
Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic
July 25, 2024
papers.authors: Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed
cs.AI
papers.abstract
Les récents progrès ont considérablement amélioré les capacités des modèles de langage multimodaux de grande taille (MLLMs) à générer et à comprendre le contenu image-texte. Malgré ces succès, les avancées sont principalement limitées à l'anglais en raison de la rareté de ressources multimodales de haute qualité dans d'autres langues. Cette limitation entrave le développement de modèles compétitifs dans des langues telles que l'arabe. Pour remédier à cette situation, nous présentons un assistant multimodal arabe efficace, baptisé Dallah, qui utilise un modèle de langage avancé basé sur LLaMA-2 pour faciliter les interactions multimodales. Dallah démontre des performances de pointe parmi les MLLMs arabes. Grâce au fine-tuning de six dialectes arabes, Dallah montre sa capacité à gérer des interactions dialectales complexes intégrant à la fois des éléments textuels et visuels. Le modèle excelle dans deux tests de référence : l'un évaluant ses performances en arabe standard moderne (MSA) et l'autre spécifiquement conçu pour évaluer les réponses dialectales. Au-delà de ses performances robustes dans les tâches d'interaction multimodale, Dallah a le potentiel de tracer la voie pour le développement ultérieur de MLLMs arabes sensibles aux dialectes.
English
Recent advancements have significantly enhanced the capabilities of
Multimodal Large Language Models (MLLMs) in generating and understanding
image-to-text content. Despite these successes, progress is predominantly
limited to English due to the scarcity of high quality multimodal resources in
other languages. This limitation impedes the development of competitive models
in languages such as Arabic. To alleviate this situation, we introduce an
efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced
language model based on LLaMA-2 to facilitate multimodal interactions. Dallah
demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning
six Arabic dialects, Dallah showcases its capability to handle complex
dialectal interactions incorporating both textual and visual elements. The
model excels in two benchmark tests: one evaluating its performance on Modern
Standard Arabic (MSA) and another specifically designed to assess dialectal
responses. Beyond its robust performance in multimodal interaction tasks,
Dallah has the potential to pave the way for further development of
dialect-aware Arabic MLLMs.