Dallah: Многоязычная крупномасштабная языковая модель, учитывающая диалекты, для арабского языка

Аннотация

Недавние достижения значительно улучшили возможности мультимодальных крупных языковых моделей (MLLMs) в создании и понимании контента изображений в тексте. Несмотря на эти успехи, прогресс в основном ограничен английским языком из-за недостатка высококачественных мультимодальных ресурсов на других языках. Это ограничение затрудняет разработку конкурентоспособных моделей на языках, таких как арабский. Для устранения этой ситуации мы представляем эффективного арабского мультимодального помощника под названием Dallah, который использует передовую языковую модель на основе LLaMA-2 для облегчения мультимодального взаимодействия. Dallah демонстрирует передовые результаты в арабских MLLMs. Путем настройки шести арабских диалектов Dallah показывает свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы. Модель превосходит в двух бенчмарк-тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов. Помимо своей надежной производительности в задачах мультимодального взаимодействия, Dallah имеет потенциал проложить путь для дальнейшего развития арабских MLLMs, учитывающих диалекты.

English

Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.

Dallah: Многоязычная крупномасштабная языковая модель, учитывающая диалекты, для арабского языка

Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

Аннотация

Support