AIN: Das Arabic INclusive Large Multimodal Model
AIN: The Arabic INclusive Large Multimodal Model
January 31, 2025
Autoren: Ahmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan
cs.AI
Zusammenfassung
Im Zuge des raschen Fortschritts großer Sprachmodelle (LLMs) und ihrer Entwicklung zu großen multimodalen Modellen (LMMs) wurden bedeutende Fortschritte in hochresourcen Sprachen wie Englisch und Chinesisch erzielt. Während arabische LLMs bemerkenswerte Fortschritte verzeichnen, bleiben arabische LMMs weitgehend unerforscht und konzentrieren sich oft eng auf einige spezifische Aspekte der Sprache und visuellen Wahrnehmung. Um diese Lücke zu schließen, stellen wir AIN vor - das Arabic Inclusive Multimodal Model, das darauf ausgelegt ist, in verschiedenen Bereichen herausragende Leistungen zu erbringen. AIN ist ein zweisprachiges LMM in Englisch und Arabisch, das auf sorgfältig konstruierten 3,6 Millionen hochwertigen arabisch-englischen multimodalen Datensätzen basiert. AIN zeigt Spitzenleistungen in der arabischen Sprache und verfügt auch über starke visuelle Fähigkeiten in englischer Sprache. Auf dem kürzlich veröffentlichten CAMEL-Bench-Benchmark, der 38 Subdomänen umfasst, darunter Multi-Image-Verständnis, komplexe visuelle Wahrnehmung, Verständnis handschriftlicher Dokumente, Videoverständnis, medizinische Bildgebung, Pflanzenkrankheiten und fernerkundungsbasiertes Verständnis der Landnutzung, zeigt unser AIN eine starke Leistung. Das 7B-Modell übertrifft GPT-4o um einen absoluten Gewinn von 3,4 % im Durchschnitt über acht Domänen und 38 Subdomänen. Die überlegenen Fähigkeiten von AIN positionieren es als einen bedeutenden Schritt zur Stärkung arabischer Sprecher mit fortschrittlichen multimodalen generativen KI-Tools für verschiedene Anwendungen.
English
Amid the swift progress of large language models (LLMs) and their evolution
into large multimodal models (LMMs), significant strides have been made in
high-resource languages such as English and Chinese. While Arabic LLMs have
seen notable progress, Arabic LMMs remain largely unexplored, often narrowly
focusing on a few specific aspects of the language and visual understanding. To
bridge this gap, we introduce AIN-the Arabic Inclusive Multimodal
Model-designed to excel across diverse domains. AIN is an English-Arabic
bilingual LMM designed to excel in English and Arabic, leveraging carefully
constructed 3.6 million high-quality Arabic-English multimodal data samples.
AIN demonstrates state-of-the-art Arabic performance, while also possessing
strong English-language visual capabilities. On the recent CAMEL-Bench
benchmark comprising 38 sub-domains including, multi-image understanding,
complex visual perception, handwritten document understanding, video
understanding, medical imaging, plant diseases, and remote sensing-based land
use understanding, our AIN demonstrates strong performance with the 7B model
outperforming GPT-4o by an absolute gain of 3.4% averaged over eight domains
and 38 sub-domains. AIN's superior capabilities position it as a significant
step toward empowering Arabic speakers with advanced multimodal generative AI
tools across diverse applications.Summary
AI-Generated Summary