AIN: O Modelo Árabe INclusivo de Grande Capacidade Multimodal
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
Autores: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
Resumo
Em meio ao rápido progresso dos grandes modelos de linguagem (LLMs) e sua evolução para grandes modelos multimodais (LMMs), foram feitos avanços significativos em línguas de alto recurso como inglês e chinês. Enquanto os LLMs árabes têm visto progressos notáveis, os LMMs árabes permanecem em grande parte inexplorados, muitas vezes focando estreitamente em alguns aspectos específicos da linguagem e compreensão visual. Para preencher essa lacuna, apresentamos o AIN - o Modelo Multimodal Inclusivo Árabe - projetado para se destacar em diversos domínios. O AIN é um LMM bilíngue inglês-árabe projetado para se destacar em inglês e árabe, aproveitando amostras multimodais árabe-inglês de alta qualidade cuidadosamente construídas, totalizando 3,6 milhões. O AIN demonstra um desempenho de ponta em árabe, enquanto também possui fortes capacidades visuais em inglês. No recente benchmark CAMEL-Bench, composto por 38 subdomínios, incluindo compreensão multi-imagem, percepção visual complexa, compreensão de documentos manuscritos, compreensão de vídeo, imagens médicas, doenças de plantas e compreensão do uso da terra com base em sensoriamento remoto, nosso AIN demonstra um desempenho sólido com o modelo 7B superando o GPT-4o em um ganho absoluto de 3,4% em média ao longo de oito domínios e 38 subdomínios. As capacidades superiores do AIN o posicionam como um passo significativo em direção ao empoderamento de falantes de árabe com ferramentas avançadas de IA generativa multimodal em diversas aplicações.
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary