HANRAG: Heuristisch Nauwkeurige Ruisbestendige Retrieval-Augmented Generatie voor Multi-hop Vraagbeantwoording
HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
September 8, 2025
Auteurs: Duolin Sun, Dan Yang, Yue Shen, Yihan Jiao, Zhehao Tan, Jie Feng, Lianzhen Zhong, Jian Wang, Peng Wei, Jinjie Gu
cs.AI
Samenvatting
De Retrieval-Augmented Generation (RAG)-benadering verbetert vraag-antwoordsystemen en dialooggeneratietaken door informatie-retrieval (IR)-technologieën te integreren met grote taalmodel(len) (LLMs). Deze strategie, die informatie ophaalt uit externe kennisbanken om de antwoordmogelijkheden van generatieve modellen te versterken, heeft bepaalde successen geboekt. Huidige RAG-methoden staan echter nog voor talrijke uitdagingen bij het omgaan met multi-hop queries. Sommige benaderingen zijn bijvoorbeeld te afhankelijk van iteratieve retrieval, wat te veel retrievalstappen verspilt bij samengestelde queries. Bovendien kan het gebruik van de oorspronkelijke complexe query voor retrieval erin falen om inhoud te vinden die relevant is voor specifieke sub-queries, wat resulteert in ruis in de opgehaalde inhoud. Als deze ruis niet wordt beheerd, kan dit leiden tot het probleem van ruisaccumulatie. Om deze problemen aan te pakken, introduceren we HANRAG, een nieuw heuristisch raamwerk dat is ontworpen om problemen van verschillende complexiteit efficiënt aan te pakken. Aangedreven door een krachtige revelator, routeert HANRAG queries, decomposeert ze in sub-queries en filtert ruis uit opgehaalde documenten. Dit verbetert de aanpassingsvermogen en ruisbestendigheid van het systeem, waardoor het zeer geschikt is voor het verwerken van diverse queries. We vergelijken het voorgestelde raamwerk met andere toonaangevende methoden uit de industrie op verschillende benchmarks. De resultaten tonen aan dat ons raamwerk superieure prestaties behaalt in zowel single-hop als multi-hop vraag-antwoordtaken.
English
The Retrieval-Augmented Generation (RAG) approach enhances question-answering
systems and dialogue generation tasks by integrating information retrieval (IR)
technologies with large language models (LLMs). This strategy, which retrieves
information from external knowledge bases to bolster the response capabilities
of generative models, has achieved certain successes. However, current RAG
methods still face numerous challenges when dealing with multi-hop queries. For
instance, some approaches overly rely on iterative retrieval, wasting too many
retrieval steps on compound queries. Additionally, using the original complex
query for retrieval may fail to capture content relevant to specific
sub-queries, resulting in noisy retrieved content. If the noise is not managed,
it can lead to the problem of noise accumulation. To address these issues, we
introduce HANRAG, a novel heuristic-based framework designed to efficiently
tackle problems of varying complexity. Driven by a powerful revelator, HANRAG
routes queries, decomposes them into sub-queries, and filters noise from
retrieved documents. This enhances the system's adaptability and noise
resistance, making it highly capable of handling diverse queries. We compare
the proposed framework against other leading industry methods across various
benchmarks. The results demonstrate that our framework obtains superior
performance in both single-hop and multi-hop question-answering tasks.