주의적 관련성 점수를 통한 아랍어 텍스트 검색 성능 향상
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
July 31, 2025
저자: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI
초록
아랍어는 복잡한 형태론, 선택적 발음 구별 기호, 그리고 현대 표준 아랍어(MSA)와 다양한 방언의 공존으로 인해 자연어 처리(NLP)와 정보 검색(IR) 분야에서 특별한 도전 과제로 여겨집니다. 아랍어의 글로벌 중요성이 증가하고 있음에도 불구하고, 아직까지 NLP 연구와 벤치마크 리소스에서 충분히 대표되지 못하고 있습니다. 본 논문에서는 아랍어를 위해 특별히 개발된 개선된 Dense Passage Retrieval(DPR) 프레임워크를 소개합니다. 우리의 접근 방식의 핵심은 표준 상호작용 메커니즘을 대체하는 새로운 Attentive Relevance Scoring(ARS)으로, 질문과 문단 간의 의미적 관련성을 더 효과적으로 모델링하는 적응형 점수 함수를 사용합니다. 우리의 방법은 사전 훈련된 아랍어 언어 모델과 아키텍처 개선을 통합하여 검색 성능을 향상시키고, 아랍어 질문에 대한 답변 시 순위 정확도를 크게 높입니다. 코드는 https://github.com/Bekhouche/APR{GitHub}에서 공개적으로 제공됩니다.
English
Arabic poses a particular challenge for natural language processing (NLP) and
information retrieval (IR) due to its complex morphology, optional diacritics
and the coexistence of Modern Standard Arabic (MSA) and various dialects.
Despite the growing global significance of Arabic, it is still underrepresented
in NLP research and benchmark resources. In this paper, we present an enhanced
Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At
the core of our approach is a novel Attentive Relevance Scoring (ARS) that
replaces standard interaction mechanisms with an adaptive scoring function that
more effectively models the semantic relevance between questions and passages.
Our method integrates pre-trained Arabic language models and architectural
refinements to improve retrieval performance and significantly increase ranking
accuracy when answering Arabic questions. The code is made publicly available
at https://github.com/Bekhouche/APR{GitHub}.