GATE: Incorporazione Generale del Testo Arabo per una Migliore Somiglianza Semantica Testuale con Apprendimento a Rappresentazione Matrioska e Addestramento a Perdita Ibrida
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
May 30, 2025
Autori: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI
Abstract
La similarità semantica testuale (STS) è un compito cruciale nell'elaborazione del linguaggio naturale (NLP), abilitando applicazioni nel recupero, clustering e comprensione delle relazioni semantiche tra testi. Tuttavia, la ricerca in questo ambito per la lingua araba rimane limitata a causa della mancanza di dataset di alta qualità e modelli pre-addestrati. Questa scarsità di risorse ha ostacolato la valutazione accurata e il progresso della similarità semantica nei testi arabi. Questo articolo introduce i modelli General Arabic Text Embedding (GATE) che raggiungono prestazioni all'avanguardia nel compito di Similarità Semantica Testuale all'interno del benchmark MTEB. GATE sfrutta il Matryoshka Representation Learning e un approccio di addestramento con perdita ibrida utilizzando dataset di triplette arabe per l'Inferenza del Linguaggio Naturale, elementi essenziali per migliorare le prestazioni del modello in compiti che richiedono una comprensione semantica fine. GATE supera modelli più grandi, inclusi quelli di OpenAI, con un miglioramento delle prestazioni del 20-25% sui benchmark STS, catturando efficacemente le sfumature semantiche uniche dell'arabo.
English
Semantic textual similarity (STS) is a critical task in natural language
processing (NLP), enabling applications in retrieval, clustering, and
understanding semantic relationships between texts. However, research in this
area for the Arabic language remains limited due to the lack of high-quality
datasets and pre-trained models. This scarcity of resources has restricted the
accurate evaluation and advance of semantic similarity in Arabic text. This
paper introduces General Arabic Text Embedding (GATE) models that achieve
state-of-the-art performance on the Semantic Textual Similarity task within the
MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid
loss training approach with Arabic triplet datasets for Natural Language
Inference, which are essential for enhancing model performance in tasks that
demand fine-grained semantic understanding. GATE outperforms larger models,
including OpenAI, with a 20-25% performance improvement on STS benchmarks,
effectively capturing the unique semantic nuances of Arabic.