ChatPaper.aiChatPaper

AIN: El Modelo Árabe INclusivo de Gran Escala Multimodal

AIN: The Arabic INclusive Large Multimodal Model

January 31, 2025
Autores: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI

Resumen

En medio del rápido progreso de los grandes modelos de lenguaje (LLMs) y su evolución hacia grandes modelos multimodales (LMMs), se han logrado avances significativos en idiomas de alto recurso como el inglés y el chino. Si bien los LLMs en árabe han experimentado un progreso notable, los LMMs en árabe siguen siendo en gran medida inexplorados, a menudo centrándose estrechamente en algunos aspectos específicos del lenguaje y la comprensión visual. Para cerrar esta brecha, presentamos AIN: el Modelo Multimodal Inclusivo en Árabe, diseñado para destacarse en diversos dominios. AIN es un LMM bilingüe en inglés y árabe diseñado para sobresalir en inglés y árabe, aprovechando muestras de datos multimodales árabe-inglés de alta calidad cuidadosamente construidas, que ascienden a 3.6 millones. AIN demuestra un rendimiento de vanguardia en árabe, al mismo tiempo que posee sólidas capacidades visuales en inglés. En el reciente banco de pruebas CAMEL-Bench, que comprende 38 subdominios, incluyendo comprensión multiimagen, percepción visual compleja, comprensión de documentos escritos a mano, comprensión de video, imágenes médicas, enfermedades de plantas y comprensión del uso de la tierra basada en teledetección, nuestro AIN muestra un sólido rendimiento con el modelo 7B superando al GPT-4o con una ganancia absoluta del 3.4% en promedio en ocho dominios y 38 subdominios. Las capacidades superiores de AIN lo posicionan como un paso significativo hacia capacitar a los hablantes de árabe con herramientas avanzadas de IA generativa multimodal en diversas aplicaciones.
English
Amid the swift progress of large language models (LLMs) and their evolution into large multimodal models (LMMs), significant strides have been made in high-resource languages such as English and Chinese. While Arabic LLMs have seen notable progress, Arabic LMMs remain largely unexplored, often narrowly focusing on a few specific aspects of the language and visual understanding. To bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal Model-designed to excel across diverse domains. AIN is an English-Arabic bilingual LMM designed to excel in English and Arabic, leveraging carefully constructed 3.6 million high-quality Arabic-English multimodal data samples. AIN demonstrates state-of-the-art Arabic performance, while also possessing strong English-language visual capabilities. On the recent CAMEL-Bench benchmark comprising 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding, our AIN demonstrates strong performance with the 7B model outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains and 38 sub-domains. AIN's superior capabilities position it as a significant step toward empowering Arabic speakers with advanced multimodal generative AI tools across diverse applications.

Summary

AI-Generated Summary

PDF172February 4, 2025