AIN: Арабская ИНклюзивная Большая Мультимодальная Модель

Аннотация

В условиях быстрого прогресса крупных языковых моделей (LLM) и их развития в крупные мультимодальные модели (LMM) были сделаны значительные шаги в языках с высокими ресурсами, таких как английский и китайский. В то время как арабские LLM показали заметный прогресс, арабские LMM остаются в значительной степени неисследованными, часто узко фокусируясь на нескольких конкретных аспектах языка и визуального понимания. Для заполнения этого разрыва мы представляем AIN - арабскую инклюзивную мультимодальную модель, разработанную для превосходства в различных областях. AIN - это двуязычная LMM английско-арабского направления, разработанная для превосходства в английском и арабском языках, используя тщательно подготовленные 3,6 миллиона высококачественных арабско-английских мультимодальных образцов данных. AIN демонстрирует передовую арабскую производительность, обладая также сильными визуальными возможностями на английском языке. На недавнем бенчмарке CAMEL-Bench, включающем 38 поддоменов, включая понимание мультиизображений, сложное визуальное восприятие, понимание рукописных документов, видеоанализ, медицинскую диагностику, болезни растений и понимание использования земли на основе дистанционного зондирования, наша модель AIN демонстрирует высокую производительность с моделью 7B, превосходя GPT-4o на 3,4% в среднем по восьми областям и 38 поддоменам. Превосходящие возможности AIN позиционируют его как значительный шаг к предоставлению арабским пользователям передовых мультимодальных генеративных инструментов искусственного интеллекта в различных приложениях.

English

Amid the swift progress of large language models (LLMs) and their evolution into large multimodal models (LMMs), significant strides have been made in high-resource languages such as English and Chinese. While Arabic LLMs have seen notable progress, Arabic LMMs remain largely unexplored, often narrowly focusing on a few specific aspects of the language and visual understanding. To bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal Model-designed to excel across diverse domains. AIN is an English-Arabic bilingual LMM designed to excel in English and Arabic, leveraging carefully constructed 3.6 million high-quality Arabic-English multimodal data samples. AIN demonstrates state-of-the-art Arabic performance, while also possessing strong English-language visual capabilities. On the recent CAMEL-Bench benchmark comprising 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding, our AIN demonstrates strong performance with the 7B model outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains and 38 sub-domains. AIN's superior capabilities position it as a significant step toward empowering Arabic speakers with advanced multimodal generative AI tools across diverse applications.

AIN: Арабская ИНклюзивная Большая Мультимодальная Модель

AIN: The Arabic INclusive Large Multimodal Model

Аннотация

Support