HANRAG: Эвристическая точная устойчивая к шуму генерация с расширением поиска для многошагового ответа на вопросы
HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
September 8, 2025
Авторы: Duolin Sun, Dan Yang, Yue Shen, Yihan Jiao, Zhehao Tan, Jie Feng, Lianzhen Zhong, Jian Wang, Peng Wei, Jinjie Gu
cs.AI
Аннотация
Подход Retrieval-Augmented Generation (RAG) улучшает системы ответов на вопросы и задачи генерации диалогов за счет интеграции технологий информационного поиска (IR) с большими языковыми моделями (LLM). Эта стратегия, которая извлекает информацию из внешних баз знаний для усиления возможностей генеративных моделей, достигла определенных успехов. Однако современные методы RAG по-прежнему сталкиваются с многочисленными трудностями при обработке многошаговых запросов. Например, некоторые подходы чрезмерно полагаются на итеративный поиск, тратя слишком много шагов на сложные запросы. Кроме того, использование исходного сложного запроса для поиска может не захватить контент, релевантный конкретным подзапросам, что приводит к получению зашумленных данных. Если шум не контролируется, это может привести к проблеме накопления шума. Для решения этих проблем мы представляем HANRAG — новый эвристический фреймворк, разработанный для эффективного решения задач различной сложности. Управляемый мощным механизмом анализа, HANRAG направляет запросы, разбивает их на подзапросы и фильтрует шум из извлеченных документов. Это повышает адаптивность системы и устойчивость к шуму, делая её высокоэффективной для обработки разнообразных запросов. Мы сравниваем предложенный фреймворк с другими ведущими методами в отрасли на различных тестовых наборах. Результаты показывают, что наш фреймворк демонстрирует превосходную производительность как в одношаговых, так и в многошаговых задачах ответов на вопросы.
English
The Retrieval-Augmented Generation (RAG) approach enhances question-answering
systems and dialogue generation tasks by integrating information retrieval (IR)
technologies with large language models (LLMs). This strategy, which retrieves
information from external knowledge bases to bolster the response capabilities
of generative models, has achieved certain successes. However, current RAG
methods still face numerous challenges when dealing with multi-hop queries. For
instance, some approaches overly rely on iterative retrieval, wasting too many
retrieval steps on compound queries. Additionally, using the original complex
query for retrieval may fail to capture content relevant to specific
sub-queries, resulting in noisy retrieved content. If the noise is not managed,
it can lead to the problem of noise accumulation. To address these issues, we
introduce HANRAG, a novel heuristic-based framework designed to efficiently
tackle problems of varying complexity. Driven by a powerful revelator, HANRAG
routes queries, decomposes them into sub-queries, and filters noise from
retrieved documents. This enhances the system's adaptability and noise
resistance, making it highly capable of handling diverse queries. We compare
the proposed framework against other leading industry methods across various
benchmarks. The results demonstrate that our framework obtains superior
performance in both single-hop and multi-hop question-answering tasks.