ChatPaper.aiChatPaper

Recuperação Aprimorada de Textos em Árabe com Pontuação de Relevância Atenta

Enhanced Arabic Text Retrieval with Attentive Relevance Scoring

July 31, 2025
Autores: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid
cs.AI

Resumo

O árabe representa um desafio particular para o processamento de linguagem natural (PLN) e a recuperação de informações (RI) devido à sua morfologia complexa, diacríticos opcionais e a coexistência do Árabe Padrão Moderno (APM) e diversos dialetos. Apesar da crescente importância global do árabe, ele ainda é sub-representado em pesquisas de PLN e em recursos de benchmark. Neste artigo, apresentamos uma estrutura aprimorada de Recuperação de Passagens Densas (DPR, na sigla em inglês) desenvolvida especificamente para o árabe. No cerne de nossa abordagem está um novo Mecanismo de Pontuação de Relevância Atenta (ARS, na sigla em inglês) que substitui os mecanismos de interação padrão por uma função de pontuação adaptativa que modela de forma mais eficaz a relevância semântica entre perguntas e passagens. Nosso método integra modelos de linguagem árabe pré-treinados e refinamentos arquitetônicos para melhorar o desempenho da recuperação e aumentar significativamente a precisão do ranqueamento ao responder a perguntas em árabe. O código está disponível publicamente em https://github.com/Bekhouche/APR{GitHub}.
English
Arabic poses a particular challenge for natural language processing (NLP) and information retrieval (IR) due to its complex morphology, optional diacritics and the coexistence of Modern Standard Arabic (MSA) and various dialects. Despite the growing global significance of Arabic, it is still underrepresented in NLP research and benchmark resources. In this paper, we present an enhanced Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At the core of our approach is a novel Attentive Relevance Scoring (ARS) that replaces standard interaction mechanisms with an adaptive scoring function that more effectively models the semantic relevance between questions and passages. Our method integrates pre-trained Arabic language models and architectural refinements to improve retrieval performance and significantly increase ranking accuracy when answering Arabic questions. The code is made publicly available at https://github.com/Bekhouche/APR{GitHub}.
PDF22August 1, 2025