GATE: Incorporação Geral de Texto em Árabe para Melhoria da Similaridade Semântica Textual com Aprendizado de Representação Matryoshka e Treinamento com Perda Híbrida
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
May 30, 2025
Autores: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Resumo
A similaridade semântica textual (STS) é uma tarefa crítica no processamento de linguagem natural (PLN), permitindo aplicações em recuperação, agrupamento e compreensão de relações semânticas entre textos. No entanto, a pesquisa nessa área para a língua árabe permanece limitada devido à falta de conjuntos de dados de alta qualidade e modelos pré-treinados. Essa escassez de recursos tem restringido a avaliação precisa e o avanço da similaridade semântica em textos árabes. Este artigo apresenta modelos de Embedding de Texto Árabe Geral (GATE) que alcançam desempenho de ponta na tarefa de Similaridade Semântica Textual dentro do benchmark MTEB. O GATE aproveita o Aprendizado de Representação Matryoshka e uma abordagem de treinamento com perda híbrida usando conjuntos de dados de triplas árabes para Inferência em Linguagem Natural, que são essenciais para melhorar o desempenho do modelo em tarefas que exigem compreensão semântica refinada. O GATE supera modelos maiores, incluindo os da OpenAI, com uma melhoria de 20-25% nos benchmarks de STS, capturando efetivamente as nuances semânticas únicas do árabe.
English
Semantic textual similarity (STS) is a critical task in natural language
processing (NLP), enabling applications in retrieval, clustering, and
understanding semantic relationships between texts. However, research in this
area for the Arabic language remains limited due to the lack of high-quality
datasets and pre-trained models. This scarcity of resources has restricted the
accurate evaluation and advance of semantic similarity in Arabic text. This
paper introduces General Arabic Text Embedding (GATE) models that achieve
state-of-the-art performance on the Semantic Textual Similarity task within the
MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid
loss training approach with Arabic triplet datasets for Natural Language
Inference, which are essential for enhancing model performance in tasks that
demand fine-grained semantic understanding. GATE outperforms larger models,
including OpenAI, with a 20-25% performance improvement on STS benchmarks,
effectively capturing the unique semantic nuances of Arabic.