HANRAG: Generazione Aumentata dal Recupero Euristico, Preciso e Resistente al Rumore per il Rispondere a Domande Multi-hop
HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
September 8, 2025
Autori: Duolin Sun, Dan Yang, Yue Shen, Yihan Jiao, Zhehao Tan, Jie Feng, Lianzhen Zhong, Jian Wang, Peng Wei, Jinjie Gu
cs.AI
Abstract
L'approccio Retrieval-Augmented Generation (RAG) migliora i sistemi di risposta alle domande e i compiti di generazione di dialoghi integrando le tecnologie di information retrieval (IR) con i grandi modelli linguistici (LLM). Questa strategia, che recupera informazioni da basi di conoscenza esterne per potenziare le capacità di risposta dei modelli generativi, ha ottenuto alcuni successi. Tuttavia, i metodi RAG attuali devono ancora affrontare numerose sfide quando si tratta di query multi-hop. Ad esempio, alcuni approcci si affidano eccessivamente al recupero iterativo, sprecando troppi passaggi di recupero su query composte. Inoltre, l'uso della query complessa originale per il recupero potrebbe non catturare contenuti rilevanti per specifiche sotto-query, risultando in contenuti recuperati rumorosi. Se il rumore non viene gestito, può portare al problema dell'accumulo di rumore. Per affrontare queste problematiche, introduciamo HANRAG, un nuovo framework basato su euristiche progettato per affrontare in modo efficiente problemi di varia complessità. Guidato da un potente rivelatore, HANRAG instrada le query, le scompone in sotto-query e filtra il rumore dai documenti recuperati. Ciò migliora l'adattabilità del sistema e la sua resistenza al rumore, rendendolo altamente capace di gestire query diverse. Confrontiamo il framework proposto con altri metodi leader del settore su vari benchmark. I risultati dimostrano che il nostro framework ottiene prestazioni superiori sia nei compiti di risposta alle domande a singolo hop che in quelli multi-hop.
English
The Retrieval-Augmented Generation (RAG) approach enhances question-answering
systems and dialogue generation tasks by integrating information retrieval (IR)
technologies with large language models (LLMs). This strategy, which retrieves
information from external knowledge bases to bolster the response capabilities
of generative models, has achieved certain successes. However, current RAG
methods still face numerous challenges when dealing with multi-hop queries. For
instance, some approaches overly rely on iterative retrieval, wasting too many
retrieval steps on compound queries. Additionally, using the original complex
query for retrieval may fail to capture content relevant to specific
sub-queries, resulting in noisy retrieved content. If the noise is not managed,
it can lead to the problem of noise accumulation. To address these issues, we
introduce HANRAG, a novel heuristic-based framework designed to efficiently
tackle problems of varying complexity. Driven by a powerful revelator, HANRAG
routes queries, decomposes them into sub-queries, and filters noise from
retrieved documents. This enhances the system's adaptability and noise
resistance, making it highly capable of handling diverse queries. We compare
the proposed framework against other leading industry methods across various
benchmarks. The results demonstrate that our framework obtains superior
performance in both single-hop and multi-hop question-answering tasks.