ChatPaper.aiChatPaper

Улучшенный поиск арабских текстов с использованием внимательного оценивания релевантности

Enhanced Arabic Text Retrieval with Attentive Relevance Scoring

July 31, 2025
Авторы: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI

Аннотация

Арабский язык представляет собой особую сложность для задач обработки естественного языка (NLP) и информационного поиска (IR) из-за своей сложной морфологии, необязательного использования диакритических знаков, а также сосуществования современного стандартного арабского языка (MSA) и различных диалектов. Несмотря на растущую глобальную значимость арабского языка, он по-прежнему недостаточно представлен в исследованиях NLP и эталонных ресурсах. В данной статье мы представляем усовершенствованную структуру Dense Passage Retrieval (DPR), разработанную специально для арабского языка. Основой нашего подхода является новый метод Attentive Relevance Scoring (ARS), который заменяет стандартные механизмы взаимодействия адаптивной функцией оценки, более эффективно моделирующей семантическую релевантность между вопросами и текстовыми фрагментами. Наш метод интегрирует предварительно обученные языковые модели для арабского языка и архитектурные улучшения, что позволяет повысить производительность поиска и значительно увеличить точность ранжирования при ответах на вопросы на арабском языке. Код доступен публично по адресу https://github.com/Bekhouche/APR{GitHub}.
English
Arabic poses a particular challenge for natural language processing (NLP) and information retrieval (IR) due to its complex morphology, optional diacritics and the coexistence of Modern Standard Arabic (MSA) and various dialects. Despite the growing global significance of Arabic, it is still underrepresented in NLP research and benchmark resources. In this paper, we present an enhanced Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At the core of our approach is a novel Attentive Relevance Scoring (ARS) that replaces standard interaction mechanisms with an adaptive scoring function that more effectively models the semantic relevance between questions and passages. Our method integrates pre-trained Arabic language models and architectural refinements to improve retrieval performance and significantly increase ranking accuracy when answering Arabic questions. The code is made publicly available at https://github.com/Bekhouche/APR{GitHub}.
PDF12August 1, 2025