HANRAG: Heuristisch akkurate, rauschresistente, abrufverstärkte Generierung für mehrstufiges Frage-Antworten
HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
September 8, 2025
papers.authors: Duolin Sun, Dan Yang, Yue Shen, Yihan Jiao, Zhehao Tan, Jie Feng, Lianzhen Zhong, Jian Wang, Peng Wei, Jinjie Gu
cs.AI
papers.abstract
Der Retrieval-Augmented Generation (RAG)-Ansatz verbessert Frage-Antwort-Systeme und Dialoggenerierungsaufgaben, indem er Information Retrieval (IR)-Technologien mit großen Sprachmodellen (LLMs) kombiniert. Diese Strategie, die Informationen aus externen Wissensdatenbanken abruft, um die Antwortfähigkeiten generativer Modelle zu stärken, hat bereits einige Erfolge erzielt. Allerdings stehen aktuelle RAG-Methoden bei der Bearbeitung von Multi-Hop-Anfragen noch vor zahlreichen Herausforderungen. Beispielsweise verlassen sich einige Ansätze zu stark auf iteratives Retrieval, was bei zusammengesetzten Anfragen zu vielen unnötigen Retrieval-Schritten führt. Zudem kann die Verwendung der ursprünglichen komplexen Anfrage für das Retrieval dazu führen, dass Inhalte, die für spezifische Teilanfragen relevant sind, nicht erfasst werden, was zu verrauschten abgerufenen Inhalten führt. Wenn dieses Rauschen nicht kontrolliert wird, kann es zu einem Problem der Rauschakkumulation kommen. Um diese Probleme zu lösen, stellen wir HANRAG vor, ein neuartiges heuristikbasiertes Framework, das darauf abzielt, Probleme unterschiedlicher Komplexität effizient zu bewältigen. Angetrieben von einem leistungsstarken Revelator, leitet HANRAG Anfragen weiter, zerlegt sie in Teilanfragen und filtert Rauschen aus den abgerufenen Dokumenten. Dies verbessert die Anpassungsfähigkeit und Rauschresistenz des Systems, wodurch es in der Lage ist, vielfältige Anfragen effektiv zu bearbeiten. Wir vergleichen das vorgeschlagene Framework mit anderen führenden Methoden der Branche über verschiedene Benchmarks hinweg. Die Ergebnisse zeigen, dass unser Framework sowohl bei Single-Hop- als auch bei Multi-Hop-Frage-Antwort-Aufgaben eine überlegene Leistung erzielt.
English
The Retrieval-Augmented Generation (RAG) approach enhances question-answering
systems and dialogue generation tasks by integrating information retrieval (IR)
technologies with large language models (LLMs). This strategy, which retrieves
information from external knowledge bases to bolster the response capabilities
of generative models, has achieved certain successes. However, current RAG
methods still face numerous challenges when dealing with multi-hop queries. For
instance, some approaches overly rely on iterative retrieval, wasting too many
retrieval steps on compound queries. Additionally, using the original complex
query for retrieval may fail to capture content relevant to specific
sub-queries, resulting in noisy retrieved content. If the noise is not managed,
it can lead to the problem of noise accumulation. To address these issues, we
introduce HANRAG, a novel heuristic-based framework designed to efficiently
tackle problems of varying complexity. Driven by a powerful revelator, HANRAG
routes queries, decomposes them into sub-queries, and filters noise from
retrieved documents. This enhances the system's adaptability and noise
resistance, making it highly capable of handling diverse queries. We compare
the proposed framework against other leading industry methods across various
benchmarks. The results demonstrate that our framework obtains superior
performance in both single-hop and multi-hop question-answering tasks.