AIN: Арабская ИНклюзивная Большая Мультимодальная Модель
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
Авторы: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
Аннотация
В условиях быстрого прогресса крупных языковых моделей (LLM) и их развития в крупные мультимодальные модели (LMM) были сделаны значительные шаги в языках с высокими ресурсами, таких как английский и китайский. В то время как арабские LLM показали заметный прогресс, арабские LMM остаются в значительной степени неисследованными, часто узко фокусируясь на нескольких конкретных аспектах языка и визуального понимания. Для заполнения этого разрыва мы представляем AIN - арабскую инклюзивную мультимодальную модель, разработанную для превосходства в различных областях. AIN - это двуязычная LMM английско-арабского направления, разработанная для превосходства в английском и арабском языках, используя тщательно подготовленные 3,6 миллиона высококачественных арабско-английских мультимодальных образцов данных. AIN демонстрирует передовую арабскую производительность, обладая также сильными визуальными возможностями на английском языке. На недавнем бенчмарке CAMEL-Bench, включающем 38 поддоменов, включая понимание мультиизображений, сложное визуальное восприятие, понимание рукописных документов, видеоанализ, медицинскую диагностику, болезни растений и понимание использования земли на основе дистанционного зондирования, наша модель AIN демонстрирует высокую производительность с моделью 7B, превосходя GPT-4o на 3,4% в среднем по восьми областям и 38 поддоменам. Превосходящие возможности AIN позиционируют его как значительный шаг к предоставлению арабским пользователям передовых мультимодальных генеративных инструментов искусственного интеллекта в различных приложениях.
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary