ChatPaper.aiChatPaper

Swan과 ArabicMTEB: 방언을 인식하는, 아랍 중심의, 다국어 및 다문화 임베딩 모델 및 평가지표

Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

November 2, 2024
저자: Gagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

초록

우리는 작은 규모와 대규모 사용 사례를 모두 다루는 아랍어 언어를 중심으로 한 임베딩 모델 패밀리인 Swan을 소개합니다. Swan은 두 가지 변형을 포함하고 있습니다: ARBERTv2를 기반으로 한 Swan-Small과 사전 훈련된 아랍어 대형 언어 모델인 ArMistral을 기반으로 하는 Swan-Large입니다. 이러한 모델을 평가하기 위해 우리는 아랍어 텍스트 임베딩 성능을 평가하는 포괄적인 벤치마킹 스위트인 ArabicMTEB를 제안합니다. 이는 94개 데이터셋을 포함하며 8가지 다양한 작업을 다루며, 크로스-언어, 다이아렉토, 다중 도메인 및 다문화적 아랍어 텍스트 임베딩 성능을 평가합니다. Swan-Large는 대부분의 아랍어 작업에서 Multilingual-E5-large를 능가하는 최첨단 결과를 달성하며, Swan-Small은 일관되게 Multilingual-E5 base를 능가합니다. 우리의 포괄적인 평가는 Swan 모델이 방언적으로나 문화적으로 인식력이 뛰어나며, 다양한 아랍어 도메인에서 뛰어나며 상당한 비용 효율성을 제공한다는 것을 입증합니다. 이 연구는 아랍어 언어 모델링 분야를 크게 발전시키고, 아랍어 자연어 처리 분야의 미래 연구 및 응용에 유용한 자원을 제공합니다. 우리의 모델과 벤치마크는 연구를 위해 공개적으로 접근 가능하게 될 것입니다.
English
We introduce Swan, a family of embedding models centred around the Arabic language, addressing both small-scale and large-scale use cases. Swan includes two variants: Swan-Small, based on ARBERTv2, and Swan-Large, built on ArMistral, a pretrained Arabic large language model. To evaluate these models, we propose ArabicMTEB, a comprehensive benchmark suite that assesses cross-lingual, multi-dialectal, multi-domain, and multi-cultural Arabic text embedding performance, covering eight diverse tasks and spanning 94 datasets. Swan-Large achieves state-of-the-art results, outperforming Multilingual-E5-large in most Arabic tasks, while the Swan-Small consistently surpasses Multilingual-E5 base. Our extensive evaluations demonstrate that Swan models are both dialectally and culturally aware, excelling across various Arabic domains while offering significant monetary efficiency. This work significantly advances the field of Arabic language modelling and provides valuable resources for future research and applications in Arabic natural language processing. Our models and benchmark will be made publicly accessible for research.
PDF44November 13, 2024