ChatPaper.aiChatPaper

AIN: アラビア語の包括的な大規模マルチモーダルモデル

AIN: The Arabic INclusive Large Multimodal Model

January 31, 2025
著者: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI

要旨

大規模言語モデル(LLMs)の急速な進化と大規模多文化モデル(LMMs)への進展の中で、英語や中国語などの高リソース言語においては重要な進展が見られました。アラビア語LLMsも注目すべき進歩を遂げていますが、アラビア語LMMsは未だほとんど未開拓の状態であり、しばしば言語や視覚理解の一部に焦点を絞っています。このギャップを埋めるために、私たちはAIN(Arabic Inclusive Multimodal Model)を導入します。AINは、多様な領域で優れた性能を発揮するよう設計された英語-アラビア語のバイリンガルLMMであり、厳密に構築された360万件の高品質なアラビア語-英語の多文化データサンプルを活用しています。AINは最先端のアラビア語性能を示し、同時に強力な英語の視覚能力も備えています。最近のCAMEL-Benchベンチマークでは、マルチ画像理解、複雑な視覚認識、手書き文書理解、ビデオ理解、医療画像、植物病気、およびリモートセンシングに基づく土地利用理解など、38のサブドメインを含む中で、AINは7BモデルによりGPT-4oを8つの領域と38のサブドメインを平均して3.4%の絶対的な利益で上回る強力なパフォーマンスを示しています。AINの優れた機能は、多様なアプリケーションでアラビア語話者に先進的な多文化生成AIツールを提供するための重要な一歩として位置付けられます。
English
Amid the swift progress of large language models (LLMs) and their evolution into large multimodal models (LMMs), significant strides have been made in high-resource languages such as English and Chinese. While Arabic LLMs have seen notable progress, Arabic LMMs remain largely unexplored, often narrowly focusing on a few specific aspects of the language and visual understanding. To bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal Model-designed to excel across diverse domains. AIN is an English-Arabic bilingual LMM designed to excel in English and Arabic, leveraging carefully constructed 3.6 million high-quality Arabic-English multimodal data samples. AIN demonstrates state-of-the-art Arabic performance, while also possessing strong English-language visual capabilities. On the recent CAMEL-Bench benchmark comprising 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding, our AIN demonstrates strong performance with the 7B model outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains and 38 sub-domains. AIN's superior capabilities position it as a significant step toward empowering Arabic speakers with advanced multimodal generative AI tools across diverse applications.

Summary

AI-Generated Summary

PDF172February 4, 2025