ChatPaper.aiChatPaper

SwanとArabicMTEB:方言を意識した、アラビア中心の、クロスリンガル、およびクロスカルチャーな埋め込みモデルとベンチマーク

Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

November 2, 2024
著者: Gagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed
cs.AI

要旨

Swanは、アラビア語を中心とした埋め込みモデルファミリーであり、小規模および大規模なユースケースの両方に対応しています。Swanには、ARBERTv2に基づくSwan-Smallと、事前学習されたアラビア語大規模言語モデルであるArMistralに基づくSwan-Largeの2つのバリアントが含まれています。これらのモデルを評価するために、アラビア語MTEBを提案しています。これは、クロスリンガル、マルチダイアレクト、マルチドメイン、マルチカルチャーのアラビア語テキスト埋め込みのパフォーマンスを評価する包括的なベンチマークスイートであり、8つの多様なタスクをカバーし、94のデータセットにわたります。Swan-Largeは最先端の結果を達成し、ほとんどのアラビア語タスクでMultilingual-E5-largeを上回ります。一方、Swan-Smallは一貫してMultilingual-E5 baseを凌駕しています。私たちの包括的な評価は、Swanモデルが方言的にも文化的にも意識しており、さまざまなアラビア領域で優れた性能を発揮し、著しい貨幣的効率を提供していることを示しています。この研究はアラビア語言語モデリングの分野を大きく前進させ、アラビア語自然言語処理の将来の研究や応用に貴重なリソースを提供しています。私たちのモデルとベンチマークは、研究用に公開されます。
English
We introduce Swan, a family of embedding models centred around the Arabic language, addressing both small-scale and large-scale use cases. Swan includes two variants: Swan-Small, based on ARBERTv2, and Swan-Large, built on ArMistral, a pretrained Arabic large language model. To evaluate these models, we propose ArabicMTEB, a comprehensive benchmark suite that assesses cross-lingual, multi-dialectal, multi-domain, and multi-cultural Arabic text embedding performance, covering eight diverse tasks and spanning 94 datasets. Swan-Large achieves state-of-the-art results, outperforming Multilingual-E5-large in most Arabic tasks, while the Swan-Small consistently surpasses Multilingual-E5 base. Our extensive evaluations demonstrate that Swan models are both dialectally and culturally aware, excelling across various Arabic domains while offering significant monetary efficiency. This work significantly advances the field of Arabic language modelling and provides valuable resources for future research and applications in Arabic natural language processing. Our models and benchmark will be made publicly accessible for research.

Summary

AI-Generated Summary

PDF32November 13, 2024