注意深い関連性スコアリングを用いたアラビア語テキスト検索の強化
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
July 31, 2025
著者: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI
要旨
アラビア語は、その複雑な形態論、任意のディアクリティカルマーク、そして現代標準アラビア語(MSA)と各種方言の共存により、自然言語処理(NLP)および情報検索(IR)において特に困難な課題を提起しています。アラビア語の世界的な重要性が高まっているにもかかわらず、NLP研究やベンチマークリソースにおいては依然として過小評価されています。本論文では、アラビア語に特化して開発された強化版Dense Passage Retrieval(DPR)フレームワークを紹介します。我々のアプローチの中核となるのは、標準的な相互作用メカニズムを置き換える新しいAttentive Relevance Scoring(ARS)であり、これは質問とパッセージ間の意味的関連性をより効果的にモデル化する適応型スコアリング関数です。本手法は、事前学習されたアラビア語言語モデルとアーキテクチャの改良を統合し、検索性能を向上させ、アラビア語の質問に対するランキング精度を大幅に向上させます。コードはhttps://github.com/Bekhouche/APR{GitHub}で公開されています。
English
Arabic poses a particular challenge for natural language processing (NLP) and
information retrieval (IR) due to its complex morphology, optional diacritics
and the coexistence of Modern Standard Arabic (MSA) and various dialects.
Despite the growing global significance of Arabic, it is still underrepresented
in NLP research and benchmark resources. In this paper, we present an enhanced
Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At
the core of our approach is a novel Attentive Relevance Scoring (ARS) that
replaces standard interaction mechanisms with an adaptive scoring function that
more effectively models the semantic relevance between questions and passages.
Our method integrates pre-trained Arabic language models and architectural
refinements to improve retrieval performance and significantly increase ranking
accuracy when answering Arabic questions. The code is made publicly available
at https://github.com/Bekhouche/APR{GitHub}.