GATE: 一般アラビア語テキスト埋め込み - マトリョーシカ表現学習とハイブリッド損失トレーニングによる強化された意味的テキスト類似性
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
May 30, 2025
著者: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
要旨
意味的テキスト類似性(Semantic Textual Similarity, STS)は、自然言語処理(NLP)における重要なタスクであり、検索、クラスタリング、テキスト間の意味的関係の理解といったアプリケーションを可能にします。しかし、アラビア語におけるこの分野の研究は、高品質なデータセットや事前学習済みモデルの不足により、依然として限られています。このリソースの不足は、アラビア語テキストにおける意味的類似性の正確な評価と進展を制約してきました。本論文では、MTEBベンチマーク内の意味的テキスト類似性タスクにおいて最先端の性能を達成するGeneral Arabic Text Embedding(GATE)モデルを紹介します。GATEは、Matryoshka Representation Learningと、自然言語推論のためのアラビア語トリプレットデータセットを用いたハイブリッド損失トレーニングアプローチを活用しており、細かい意味理解を要求するタスクにおけるモデルの性能向上に不可欠です。GATEは、OpenAIを含む大規模モデルを上回り、STSベンチマークで20-25%の性能向上を達成し、アラビア語の独特な意味的ニュアンスを効果的に捉えています。
English
Semantic textual similarity (STS) is a critical task in natural language
processing (NLP), enabling applications in retrieval, clustering, and
understanding semantic relationships between texts. However, research in this
area for the Arabic language remains limited due to the lack of high-quality
datasets and pre-trained models. This scarcity of resources has restricted the
accurate evaluation and advance of semantic similarity in Arabic text. This
paper introduces General Arabic Text Embedding (GATE) models that achieve
state-of-the-art performance on the Semantic Textual Similarity task within the
MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid
loss training approach with Arabic triplet datasets for Natural Language
Inference, which are essential for enhancing model performance in tasks that
demand fine-grained semantic understanding. GATE outperforms larger models,
including OpenAI, with a 20-25% performance improvement on STS benchmarks,
effectively capturing the unique semantic nuances of Arabic.