ChatPaper.aiChatPaper

AIN: Het Arabische INclusieve Grote Multimodale Model

AIN: The Arabic INclusive Large Multimodal Model

January 31, 2025
Auteurs: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI

Samenvatting

Te midden van de snelle vooruitgang van grote taalmodellen (LLM's) en hun evolutie tot grote multimodale modellen (LMM's) zijn er aanzienlijke stappen gezet in talen met veel bronnen, zoals Engels en Chinees. Hoewel Arabische LLM's opmerkelijke vooruitgang hebben geboekt, blijven Arabische LMM's grotendeels onontgonnen, vaak met een nauwe focus op enkele specifieke aspecten van de taal en visueel begrip. Om deze kloof te overbruggen, introduceren we AIN - het Arabische Inclusieve Multimodale Model - ontworpen om uit te blinken in diverse domeinen. AIN is een tweetalig Engels-Arabisch LMM dat is ontworpen om uit te blinken in zowel Engels als Arabisch, gebruikmakend van zorgvuldig geconstrueerde 3,6 miljoen hoogwaardige Arabisch-Engelse multimodale gegevensmonsters. AIN toont eersteklas prestaties in het Arabisch, terwijl het ook sterke visuele mogelijkheden in het Engels heeft. Op de recente CAMEL-Bench benchmark, bestaande uit 38 subdomeinen waaronder multi-beeldbegrip, complex visueel begrip, begrip van handgeschreven documenten, video begrip, medische beeldvorming, plantenziekten en op afstand sensing-gebaseerd landgebruikbegrip, toont onze AIN sterke prestaties met het 7B-model dat GPT-4o overtreft met een absoluut voordeel van 3,4% gemiddeld over acht domeinen en 38 subdomeinen. De superieure mogelijkheden van AIN positioneren het als een belangrijke stap naar het versterken van Arabisch-sprekenden met geavanceerde multimodale generatieve AI-tools voor diverse toepassingen.
English
Amid the swift progress of large language models (LLMs) and their evolution into large multimodal models (LMMs), significant strides have been made in high-resource languages such as English and Chinese. While Arabic LLMs have seen notable progress, Arabic LMMs remain largely unexplored, often narrowly focusing on a few specific aspects of the language and visual understanding. To bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal Model-designed to excel across diverse domains. AIN is an English-Arabic bilingual LMM designed to excel in English and Arabic, leveraging carefully constructed 3.6 million high-quality Arabic-English multimodal data samples. AIN demonstrates state-of-the-art Arabic performance, while also possessing strong English-language visual capabilities. On the recent CAMEL-Bench benchmark comprising 38 sub-domains including, multi-image understanding, complex visual perception, handwritten document understanding, video understanding, medical imaging, plant diseases, and remote sensing-based land use understanding, our AIN demonstrates strong performance with the 7B model outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains and 38 sub-domains. AIN's superior capabilities position it as a significant step toward empowering Arabic speakers with advanced multimodal generative AI tools across diverse applications.

Summary

AI-Generated Summary

PDF172February 4, 2025