ChatPaper.aiChatPaper

Aprimorando a Compreensão da Similaridade Semântica em PNL Árabe com Aprendizado de Incorporação Aninhada

Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

July 30, 2024
Autores: Omer Nacar, Anis Koubaa
cs.AI

Resumo

Este trabalho apresenta um novo framework para treinar modelos de incorporação aninhados em árabe por meio do Aprendizado de Incorporação Matryoshka, aproveitando modelos multilíngues, específicos para o árabe e baseados em inglês, para destacar o poder dos modelos de incorporação aninhados em várias tarefas downstream de PNL em árabe. Nossa contribuição inovadora inclui a tradução de vários conjuntos de dados de similaridade de frases para o árabe, possibilitando um framework abrangente de avaliação para comparar esses modelos em diferentes dimensões. Treinamos vários modelos de incorporação aninhados no conjunto de dados de triplas de Inferência de Linguagem Natural em árabe e avaliamos seu desempenho usando múltiplas métricas de avaliação, incluindo correlações de Pearson e Spearman para similaridade de cosseno, distância de Manhattan, distância euclidiana e similaridade de produto ponto. Os resultados demonstram o desempenho superior dos modelos de incorporação Matryoshka, especialmente na captura de nuances semânticas únicas da língua árabe. Os resultados mostraram que os modelos de incorporação Matryoshka em árabe têm um desempenho superior na captura de nuances semânticas únicas da língua árabe, superando significativamente os modelos tradicionais em até 20-25\% em várias métricas de similaridade. Esses resultados destacam a eficácia do treinamento específico para a língua e ressaltam o potencial dos modelos Matryoshka em aprimorar tarefas de similaridade textual semântica para PNL em árabe.
English
This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.

Summary

AI-Generated Summary

PDF62November 28, 2024