Migliorare la Comprensione della Somiglianza Semantica nell'NLP Arabo con l'Apprendimento di Embedding Annidati

Abstract

Questo lavoro presenta un nuovo framework per l'addestramento di modelli di embedding nidificati per l'arabo attraverso il Matryoshka Embedding Learning, sfruttando modelli multilingue, specifici per l'arabo e basati sull'inglese, per evidenziare la potenza dei modelli di embedding nidificati in varie attività downstream di NLP arabo. Il nostro contributo innovativo include la traduzione di vari dataset di similarità frasale in arabo, consentendo un framework di valutazione completo per confrontare questi modelli su diverse dimensioni. Abbiamo addestrato diversi modelli di embedding nidificati sul dataset di triplette di inferenza del linguaggio naturale arabo e abbiamo valutato le loro prestazioni utilizzando molteplici metriche di valutazione, tra cui le correlazioni di Pearson e Spearman per la similarità del coseno, la distanza di Manhattan, la distanza euclidea e la similarità del prodotto scalare. I risultati dimostrano la prestazione superiore dei modelli di embedding Matryoshka, in particolare nella cattura delle sfumature semantiche uniche della lingua araba. I risultati hanno dimostrato che i modelli di embedding Matryoshka per l'arabo hanno prestazioni superiori nella cattura delle sfumature semantiche uniche della lingua araba, superando significativamente i modelli tradizionali fino al 20-25% su varie metriche di similarità. Questi risultati sottolineano l'efficacia dell'addestramento specifico per lingua e evidenziano il potenziale dei modelli Matryoshka nel migliorare le attività di similarità semantica testuale per l'NLP arabo.

English

This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.

Migliorare la Comprensione della Somiglianza Semantica nell'NLP Arabo con l'Apprendimento di Embedding Annidati

Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Abstract

Support