Recuperación Mejorada de Texto en Árabe con Puntuación de Relevancia Atenta
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
July 31, 2025
Autores: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI
Resumen
El árabe presenta un desafío particular para el procesamiento del lenguaje natural (PLN) y la recuperación de información (RI) debido a su morfología compleja, los diacríticos opcionales y la coexistencia del árabe estándar moderno (MSA) y diversos dialectos. A pesar de la creciente importancia global del árabe, sigue estando subrepresentado en la investigación de PLN y en los recursos de referencia. En este artículo, presentamos un marco mejorado de Recuperación de Pasajes Densos (DPR) desarrollado específicamente para el árabe. En el núcleo de nuestro enfoque se encuentra una novedosa Puntuación de Relevancia Atenta (ARS) que reemplaza los mecanismos de interacción estándar con una función de puntuación adaptativa que modela de manera más efectiva la relevancia semántica entre preguntas y pasajes. Nuestro método integra modelos de lenguaje en árabe preentrenados y refinamientos arquitectónicos para mejorar el rendimiento de la recuperación y aumentar significativamente la precisión en la clasificación al responder preguntas en árabe. El código está disponible públicamente en https://github.com/Bekhouche/APR{GitHub}.
English
Arabic poses a particular challenge for natural language processing (NLP) and
information retrieval (IR) due to its complex morphology, optional diacritics
and the coexistence of Modern Standard Arabic (MSA) and various dialects.
Despite the growing global significance of Arabic, it is still underrepresented
in NLP research and benchmark resources. In this paper, we present an enhanced
Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At
the core of our approach is a novel Attentive Relevance Scoring (ARS) that
replaces standard interaction mechanisms with an adaptive scoring function that
more effectively models the semantic relevance between questions and passages.
Our method integrates pre-trained Arabic language models and architectural
refinements to improve retrieval performance and significantly increase ranking
accuracy when answering Arabic questions. The code is made publicly available
at https://github.com/Bekhouche/APR{GitHub}.