Verbeterde Arabische Tekstretrieval met Attentieve Relevantiescoring
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
July 31, 2025
Auteurs: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI
Samenvatting
Arabisch vormt een bijzondere uitdaging voor natuurlijke taalverwerking (NLP) en informatiezoeken (IR) vanwege de complexe morfologie, optionele diakritische tekens en de naast elkaar bestaande vormen van Modern Standaard Arabisch (MSA) en verschillende dialecten. Ondanks de toenemende wereldwijde betekenis van Arabisch, is het nog steeds ondervertegenwoordigd in NLP-onderzoek en benchmarkbronnen. In dit artikel presenteren we een verbeterd Dense Passage Retrieval (DPR)-framework dat specifiek is ontwikkeld voor Arabisch. De kern van onze aanpak is een nieuwe Attentive Relevance Scoring (ARS) die standaard interactiemechanismen vervangt door een adaptieve scoringsfunctie die de semantische relevantie tussen vragen en passages effectiever modelleert. Onze methode integreert vooraf getrainde Arabische taalmodellen en architectonische verfijningen om de zoekprestaties te verbeteren en de rangschikkingsnauwkeurigheid bij het beantwoorden van Arabische vragen aanzienlijk te verhogen. De code is openbaar beschikbaar gemaakt op https://github.com/Bekhouche/APR{GitHub}.
English
Arabic poses a particular challenge for natural language processing (NLP) and
information retrieval (IR) due to its complex morphology, optional diacritics
and the coexistence of Modern Standard Arabic (MSA) and various dialects.
Despite the growing global significance of Arabic, it is still underrepresented
in NLP research and benchmark resources. In this paper, we present an enhanced
Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At
the core of our approach is a novel Attentive Relevance Scoring (ARS) that
replaces standard interaction mechanisms with an adaptive scoring function that
more effectively models the semantic relevance between questions and passages.
Our method integrates pre-trained Arabic language models and architectural
refinements to improve retrieval performance and significantly increase ranking
accuracy when answering Arabic questions. The code is made publicly available
at https://github.com/Bekhouche/APR{GitHub}.