ChatPaper.aiChatPaper

Dallah: Een Dialectbewuste Multimodale Taalmodel op Grote Schaal voor Arabisch

Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

July 25, 2024
Auteurs: Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed
cs.AI

Samenvatting

Recente ontwikkelingen hebben de mogelijkheden van Multimodale Grote Taalmodellen (MLLMs) aanzienlijk verbeterd in het genereren en begrijpen van beeld-naar-tekst inhoud. Ondanks deze successen is de vooruitgang voornamelijk beperkt tot het Engels vanwege het gebrek aan hoogwaardige multimodale bronnen in andere talen. Deze beperking belemmert de ontwikkeling van concurrerende modellen in talen zoals het Arabisch. Om deze situatie te verlichten, introduceren we een efficiënte Arabische multimodale assistent, genaamd Dallah, die gebruikmaakt van een geavanceerd taalmodel gebaseerd op LLaMA-2 om multimodale interacties te vergemakkelijken. Dallah toont state-of-the-art prestaties in Arabische MLLMs. Door het finetunen van zes Arabische dialecten, demonstreert Dallah zijn vermogen om complexe dialectale interacties te hanteren die zowel tekstuele als visuele elementen omvatten. Het model blinkt uit in twee benchmarktests: één die zijn prestaties op Modern Standaard Arabisch (MSA) evalueert en een andere die specifiek is ontworpen om dialectale reacties te beoordelen. Naast zijn robuuste prestaties in multimodale interactietaken, heeft Dallah het potentieel om de weg te effenen voor verdere ontwikkeling van dialectbewuste Arabische MLLMs.
English
Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.
PDF124February 8, 2026