ChatPaper.aiChatPaper

HANRAG: Geração Aumentada por Recuperação Heurística, Precisão e Resistente a Ruído para Resposta a Perguntas de Múltiplos Saltos

HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering

September 8, 2025
Autores: Duolin Sun, Dan Yang, Yue Shen, Yihan Jiao, Zhehao Tan, Jie Feng, Lianzhen Zhong, Jian Wang, Peng Wei, Jinjie Gu
cs.AI

Resumo

A abordagem de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) aprimora sistemas de resposta a perguntas e tarefas de geração de diálogo ao integrar tecnologias de recuperação de informação (IR, do inglês Information Retrieval) com modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). Essa estratégia, que recupera informações de bases de conhecimento externas para fortalecer as capacidades de resposta de modelos generativos, obteve certos sucessos. No entanto, os métodos atuais de RAG ainda enfrentam diversos desafios ao lidar com consultas de múltiplos saltos (multi-hop). Por exemplo, algumas abordagens dependem excessivamente de recuperação iterativa, desperdiçando muitas etapas de recuperação em consultas compostas. Além disso, usar a consulta complexa original para recuperação pode falhar em capturar conteúdo relevante para subconsultas específicas, resultando em conteúdo recuperado ruidoso. Se o ruído não for gerenciado, pode levar ao problema de acúmulo de ruído. Para resolver essas questões, apresentamos o HANRAG, uma nova estrutura baseada em heurística projetada para lidar eficientemente com problemas de complexidade variável. Impulsionado por um poderoso revelador, o HANRAG direciona consultas, as decompõe em subconsultas e filtra o ruído dos documentos recuperados. Isso aumenta a adaptabilidade e a resistência ao ruído do sistema, tornando-o altamente capaz de lidar com consultas diversas. Comparamos a estrutura proposta com outros métodos líderes da indústria em vários benchmarks. Os resultados demonstram que nossa estrutura obtém desempenho superior tanto em tarefas de resposta a perguntas de salto único (single-hop) quanto de múltiplos saltos (multi-hop).
English
The Retrieval-Augmented Generation (RAG) approach enhances question-answering systems and dialogue generation tasks by integrating information retrieval (IR) technologies with large language models (LLMs). This strategy, which retrieves information from external knowledge bases to bolster the response capabilities of generative models, has achieved certain successes. However, current RAG methods still face numerous challenges when dealing with multi-hop queries. For instance, some approaches overly rely on iterative retrieval, wasting too many retrieval steps on compound queries. Additionally, using the original complex query for retrieval may fail to capture content relevant to specific sub-queries, resulting in noisy retrieved content. If the noise is not managed, it can lead to the problem of noise accumulation. To address these issues, we introduce HANRAG, a novel heuristic-based framework designed to efficiently tackle problems of varying complexity. Driven by a powerful revelator, HANRAG routes queries, decomposes them into sub-queries, and filters noise from retrieved documents. This enhances the system's adaptability and noise resistance, making it highly capable of handling diverse queries. We compare the proposed framework against other leading industry methods across various benchmarks. The results demonstrate that our framework obtains superior performance in both single-hop and multi-hop question-answering tasks.
PDF247September 15, 2025