Dallah: Многоязычная крупномасштабная языковая модель, учитывающая диалекты, для арабского языка
Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic
July 25, 2024
Авторы: Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed
cs.AI
Аннотация
Недавние достижения значительно улучшили возможности мультимодальных крупных языковых моделей (MLLMs) в создании и понимании контента изображений в тексте. Несмотря на эти успехи, прогресс в основном ограничен английским языком из-за недостатка высококачественных мультимодальных ресурсов на других языках. Это ограничение затрудняет разработку конкурентоспособных моделей на языках, таких как арабский. Для устранения этой ситуации мы представляем эффективного арабского мультимодального помощника под названием Dallah, который использует передовую языковую модель на основе LLaMA-2 для облегчения мультимодального взаимодействия. Dallah демонстрирует передовые результаты в арабских MLLMs. Путем настройки шести арабских диалектов Dallah показывает свою способность обрабатывать сложные диалектные взаимодействия, включающие как текстовые, так и визуальные элементы. Модель превосходит в двух бенчмарк-тестах: один оценивает ее производительность на современном стандартном арабском языке (MSA), а другой специально разработан для оценки диалектных ответов. Помимо своей надежной производительности в задачах мультимодального взаимодействия, Dallah имеет потенциал проложить путь для дальнейшего развития арабских MLLMs, учитывающих диалекты.
English
Recent advancements have significantly enhanced the capabilities of
Multimodal Large Language Models (MLLMs) in generating and understanding
image-to-text content. Despite these successes, progress is predominantly
limited to English due to the scarcity of high quality multimodal resources in
other languages. This limitation impedes the development of competitive models
in languages such as Arabic. To alleviate this situation, we introduce an
efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced
language model based on LLaMA-2 to facilitate multimodal interactions. Dallah
demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning
six Arabic dialects, Dallah showcases its capability to handle complex
dialectal interactions incorporating both textual and visual elements. The
model excels in two benchmark tests: one evaluating its performance on Modern
Standard Arabic (MSA) and another specifically designed to assess dialectal
responses. Beyond its robust performance in multimodal interaction tasks,
Dallah has the potential to pave the way for further development of
dialect-aware Arabic MLLMs.Summary
AI-Generated Summary