AIN: Il Modello Arabo INclusivo Multimodale di Ampia Dimensione
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
Autori: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
Abstract
Tra il rapido progresso dei grandi modelli linguistici (LLM) e la loro evoluzione in grandi modelli multimodali (LMM), sono stati compiuti significativi passi avanti nelle lingue ad alto livello di risorse come l'inglese e il cinese. Mentre i LLM in lingua araba hanno visto un notevole progresso, i LMM in arabo rimangono in gran parte inesplorati, spesso concentrati su alcuni aspetti specifici della lingua e della comprensione visiva. Per colmare questa lacuna, presentiamo AIN - l'Arabic Inclusive Multimodal Model - progettato per eccellere in diversi settori. AIN è un LMM bilingue inglese-arabo progettato per eccellere in inglese e arabo, sfruttando campioni di dati multimodali arabo-inglese di alta qualità, accuratamente costruiti, per un totale di 3,6 milioni. AIN dimostra prestazioni all'avanguardia in arabo, possedendo anche solide capacità visive in lingua inglese. Sul recente benchmark CAMEL-Bench, che comprende 38 sotto-domini tra cui comprensione multi-immagine, percezione visiva complessa, comprensione di documenti scritti a mano, comprensione video, imaging medico, malattie delle piante e comprensione dell'uso del suolo basata sul telerilevamento, il nostro AIN mostra prestazioni eccellenti con il modello 7B che supera il GPT-4o di un guadagno assoluto del 3,4% in media su otto domini e 38 sotto-domini. Le capacità superiori di AIN lo pongono come un significativo passo avanti verso l'abilitazione degli speaker arabi con strumenti avanzati di intelligenza artificiale generativa multimodale in diverse applicazioni.
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary