ChatPaper.aiChatPaper

GATE: Универсальное векторное представление арабских текстов для улучшенной семантической текстовой схожести с использованием обучения матрёшечных представлений и гибридной функции потерь

GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

May 30, 2025
Авторы: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila
cs.AI

Аннотация

Семантическое текстовое сходство (STS) является важной задачей в области обработки естественного языка (NLP), обеспечивая приложения в поиске, кластеризации и понимании семантических связей между текстами. Однако исследования в этой области для арабского языка остаются ограниченными из-за отсутствия высококачественных наборов данных и предобученных моделей. Этот дефицит ресурсов сдерживает точную оценку и развитие семантического сходства в арабских текстах. В данной статье представлены модели General Arabic Text Embedding (GATE), которые демонстрируют наилучшие результаты в задаче семантического текстового сходства в рамках бенчмарка MTEB. GATE использует обучение представлений по принципу матрёшки и гибридный подход к обучению с использованием функции потерь на основе арабских триплетных наборов данных для логического вывода в естественном языке, что крайне важно для повышения производительности моделей в задачах, требующих тонкого семантического понимания. GATE превосходит более крупные модели, включая OpenAI, с улучшением производительности на 20-25% в бенчмарках STS, эффективно улавливая уникальные семантические нюансы арабского языка.
English
Semantic textual similarity (STS) is a critical task in natural language processing (NLP), enabling applications in retrieval, clustering, and understanding semantic relationships between texts. However, research in this area for the Arabic language remains limited due to the lack of high-quality datasets and pre-trained models. This scarcity of resources has restricted the accurate evaluation and advance of semantic similarity in Arabic text. This paper introduces General Arabic Text Embedding (GATE) models that achieve state-of-the-art performance on the Semantic Textual Similarity task within the MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid loss training approach with Arabic triplet datasets for Natural Language Inference, which are essential for enhancing model performance in tasks that demand fine-grained semantic understanding. GATE outperforms larger models, including OpenAI, with a 20-25% performance improvement on STS benchmarks, effectively capturing the unique semantic nuances of Arabic.
PDF32June 2, 2025