Amélioration de la récupération de texte arabe grâce à un score de pertinence attentionnel
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
July 31, 2025
papers.authors: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI
papers.abstract
L'arabe représente un défi particulier pour le traitement automatique du langage naturel (TALN) et la recherche d'information (RI) en raison de sa morphologie complexe, de ses diacritiques optionnels et de la coexistence de l'arabe standard moderne (ASM) avec divers dialectes. Malgré l'importance croissante de l'arabe à l'échelle mondiale, cette langue reste sous-représentée dans la recherche en TALN et dans les ressources de référence. Dans cet article, nous présentons un cadre amélioré de récupération dense de passages (Dense Passage Retrieval, DPR) spécialement conçu pour l'arabe. Au cœur de notre approche se trouve un nouveau mécanisme de notation attentive de la pertinence (Attentive Relevance Scoring, ARS) qui remplace les mécanismes d'interaction standards par une fonction de notation adaptative, modélisant plus efficacement la pertinence sémantique entre les questions et les passages. Notre méthode intègre des modèles de langage arabe pré-entraînés et des améliorations architecturales pour accroître les performances de récupération et augmenter significativement la précision du classement lors de la réponse à des questions en arabe. Le code est rendu public à l'adresse suivante : https://github.com/Bekhouche/APR{GitHub}.
English
Arabic poses a particular challenge for natural language processing (NLP) and
information retrieval (IR) due to its complex morphology, optional diacritics
and the coexistence of Modern Standard Arabic (MSA) and various dialects.
Despite the growing global significance of Arabic, it is still underrepresented
in NLP research and benchmark resources. In this paper, we present an enhanced
Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At
the core of our approach is a novel Attentive Relevance Scoring (ARS) that
replaces standard interaction mechanisms with an adaptive scoring function that
more effectively models the semantic relevance between questions and passages.
Our method integrates pre-trained Arabic language models and architectural
refinements to improve retrieval performance and significantly increase ranking
accuracy when answering Arabic questions. The code is made publicly available
at https://github.com/Bekhouche/APR{GitHub}.