AIN: アラビア語の包括的な大規模マルチモーダルモデル
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
著者: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
要旨
大規模言語モデル(LLMs)の急速な進化と大規模多文化モデル(LMMs)への進展の中で、英語や中国語などの高リソース言語においては重要な進展が見られました。アラビア語LLMsも注目すべき進歩を遂げていますが、アラビア語LMMsは未だほとんど未開拓の状態であり、しばしば言語や視覚理解の一部に焦点を絞っています。このギャップを埋めるために、私たちはAIN(Arabic Inclusive Multimodal Model)を導入します。AINは、多様な領域で優れた性能を発揮するよう設計された英語-アラビア語のバイリンガルLMMであり、厳密に構築された360万件の高品質なアラビア語-英語の多文化データサンプルを活用しています。AINは最先端のアラビア語性能を示し、同時に強力な英語の視覚能力も備えています。最近のCAMEL-Benchベンチマークでは、マルチ画像理解、複雑な視覚認識、手書き文書理解、ビデオ理解、医療画像、植物病気、およびリモートセンシングに基づく土地利用理解など、38のサブドメインを含む中で、AINは7BモデルによりGPT-4oを8つの領域と38のサブドメインを平均して3.4%の絶対的な利益で上回る強力なパフォーマンスを示しています。AINの優れた機能は、多様なアプリケーションでアラビア語話者に先進的な多文化生成AIツールを提供するための重要な一歩として位置付けられます。
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary