Recupero Avanzato di Testi Arabi con Punteggio di Rilevanza Attentivo
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
July 31, 2025
Autori: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI
Abstract
L'arabo rappresenta una sfida particolare per l'elaborazione del linguaggio naturale (NLP) e il recupero delle informazioni (IR) a causa della sua morfologia complessa, dei diacritici opzionali e della coesistenza dell'Arabo Standard Moderno (MSA) e di vari dialetti. Nonostante la crescente importanza globale dell'arabo, esso è ancora sottorappresentato nella ricerca NLP e nelle risorse di benchmark. In questo articolo, presentiamo un framework avanzato di Recupero di Passaggi Densi (DPR) sviluppato specificamente per l'arabo. Al centro del nostro approccio c'è un nuovo sistema di Punteggio di Rilevanza Attento (ARS) che sostituisce i meccanismi di interazione standard con una funzione di punteggio adattiva che modella in modo più efficace la rilevanza semantica tra domande e passaggi. Il nostro metodo integra modelli linguistici arabi pre-addestrati e perfezionamenti architetturali per migliorare le prestazioni di recupero e aumentare significativamente l'accuratezza del ranking nella risposta a domande in arabo. Il codice è reso disponibile pubblicamente su https://github.com/Bekhouche/APR{GitHub}.
English
Arabic poses a particular challenge for natural language processing (NLP) and
information retrieval (IR) due to its complex morphology, optional diacritics
and the coexistence of Modern Standard Arabic (MSA) and various dialects.
Despite the growing global significance of Arabic, it is still underrepresented
in NLP research and benchmark resources. In this paper, we present an enhanced
Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At
the core of our approach is a novel Attentive Relevance Scoring (ARS) that
replaces standard interaction mechanisms with an adaptive scoring function that
more effectively models the semantic relevance between questions and passages.
Our method integrates pre-trained Arabic language models and architectural
refinements to improve retrieval performance and significantly increase ranking
accuracy when answering Arabic questions. The code is made publicly available
at https://github.com/Bekhouche/APR{GitHub}.