TreeHop: Эффективное генерирование и фильтрация эмбеддингов следующего запроса для многошагового поиска ответов на вопросы
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering
April 28, 2025
Авторы: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
cs.AI
Аннотация
Системы генерации с усилением поиска (RAG) сталкиваются с серьезными вызовами в задачах многошагового ответа на вопросы (MHQA), где сложные запросы требуют синтеза информации из нескольких фрагментов документов. Существующие подходы обычно полагаются на итеративное переформулирование и маршрутизацию запросов с использованием больших языковых моделей (LLM), что приводит к высоким вычислительным затратам из-за повторных вызовов LLM и многоэтапных процессов. Для преодоления этих ограничений мы предлагаем TreeHop — фреймворк на уровне эмбеддингов, не требующий использования LLM для уточнения запросов. TreeHop динамически обновляет эмбеддинги запросов, объединяя семантическую информацию из предыдущих запросов и извлеченных документов, что позволяет выполнять итеративный поиск исключительно за счет операций в пространстве эмбеддингов. Этот метод заменяет традиционный цикл "Извлечь-Переформулировать-Векторизовать-Извлечь" на упрощенный цикл "Извлечь-Эмбеддинг-Извлечь", значительно снижая вычислительные затраты. Кроме того, вводится правило остановки на основе правил для дальнейшего сокращения избыточных извлечений, балансируя эффективность и полноту охвата. Экспериментальные результаты показывают, что TreeHop конкурирует с передовыми методами RAG на трех наборах данных для открытых доменов MHQA, достигая сопоставимой производительности при использовании всего 5\%–0,4\% размера параметров модели и сокращая задержку запросов примерно на 99\% по сравнению с современными подходами. Это делает TreeHop более быстрым и экономически эффективным решением для развертывания в различных приложениях, требующих интенсивного использования знаний. Для обеспечения воспроизводимости коды и данные доступны по ссылке: https://github.com/allen-li1231/TreeHop.
English
Retrieval-augmented generation (RAG) systems face significant challenges in
multi-hop question answering (MHQA), where complex queries require synthesizing
information across multiple document chunks. Existing approaches typically rely
on iterative LLM-based query rewriting and routing, resulting in high
computational costs due to repeated LLM invocations and multi-stage processes.
To address these limitations, we propose TreeHop, an embedding-level framework
without the need for LLMs in query refinement. TreeHop dynamically updates
query embeddings by fusing semantic information from prior queries and
retrieved documents, enabling iterative retrieval through embedding-space
operations alone. This method replaces the traditional
"Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined
"Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead.
Moreover, a rule-based stop criterion is introduced to further prune redundant
retrievals, balancing efficiency and recall rate. Experimental results show
that TreeHop rivals advanced RAG methods across three open-domain MHQA
datasets, achieving comparable performance with only 5\%-0.4\% of the model
parameter size and reducing the query latency by approximately 99\% compared to
concurrent approaches. This makes TreeHop a faster and more cost-effective
solution for deployment in a range of knowledge-intensive applications. For
reproducibility purposes, codes and data are available here:
https://github.com/allen-li1231/TreeHop.Summary
AI-Generated Summary