ChatPaper.aiChatPaper

Amélioration de la compréhension de la similarité sémantique en TALN arabe grâce à l'apprentissage d'embeddings imbriqués

Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

July 30, 2024
Auteurs: Omer Nacar, Anis Koubaa
cs.AI

Résumé

Ce travail présente un cadre novateur pour l'entraînement de modèles d'embeddings imbriqués en arabe grâce à l'apprentissage d'embeddings Matryoshka, en exploitant des modèles multilingues, spécifiques à l'arabe et basés sur l'anglais, afin de mettre en lumière la puissance des modèles d'embeddings imbriqués dans diverses tâches aval de traitement du langage naturel (NLP) en arabe. Notre contribution innovante inclut la traduction de plusieurs ensembles de données de similarité de phrases en arabe, permettant ainsi un cadre d'évaluation complet pour comparer ces modèles selon différentes dimensions. Nous avons entraîné plusieurs modèles d'embeddings imbriqués sur l'ensemble de données de triplets d'inférence en langage naturel en arabe et avons évalué leurs performances à l'aide de plusieurs métriques d'évaluation, incluant les corrélations de Pearson et Spearman pour la similarité cosinus, la distance de Manhattan, la distance euclidienne et la similarité par produit scalaire. Les résultats démontrent la performance supérieure des modèles d'embeddings Matryoshka, en particulier dans la capture des nuances sémantiques propres à la langue arabe. Les résultats ont montré que les modèles d'embeddings Matryoshka en arabe surpassent significativement les modèles traditionnels, avec une amélioration allant jusqu'à 20-25\% sur diverses métriques de similarité. Ces résultats soulignent l'efficacité de l'entraînement spécifique à la langue et mettent en évidence le potentiel des modèles Matryoshka pour améliorer les tâches de similarité sémantique textuelle en NLP arabe.
English
This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.

Summary

AI-Generated Summary

PDF62November 28, 2024