AIN : Le Modèle Multimodal Large Inclusif en Arabe
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
Auteurs: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
Résumé
Au milieu de la rapide progression des grands modèles de langage (GML) et de leur évolution vers de grands modèles multimodaux (GMM), des progrès significatifs ont été réalisés dans les langues à ressources élevées telles que l'anglais et le chinois. Alors que les GML en arabe ont connu des progrès notables, les GMM en arabe restent largement inexplorés, se concentrant souvent étroitement sur quelques aspects spécifiques de la langue et de la compréhension visuelle. Pour combler ce fossé, nous présentons AIN - le Modèle Multimodal Inclusif en Arabe - conçu pour exceller dans divers domaines. AIN est un GMM bilingue anglais-arabe conçu pour exceller en anglais et en arabe, en s'appuyant sur 3,6 millions d'échantillons de données multimodales arabes-anglais de haute qualité soigneusement construits. AIN démontre des performances de pointe en arabe, tout en possédant de solides capacités visuelles en anglais. Sur le récent banc d'essai CAMEL-Bench comprenant 38 sous-domaines tels que la compréhension multi-images, la perception visuelle complexe, la compréhension de documents manuscrits, la compréhension vidéo, l'imagerie médicale, les maladies des plantes et la compréhension de l'utilisation des terres basée sur la télédétection, notre AIN affiche de solides performances avec le modèle 7B surpassant le GPT-4o avec un gain absolu de 3,4 % en moyenne sur huit domaines et 38 sous-domaines. Les capacités supérieures de l'AIN en font un pas significatif vers l'autonomisation des locuteurs arabes avec des outils avancés d'IA générative multimodale dans diverses applications.
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary