TreeHop: Эффективное генерирование и фильтрация эмбеддингов следующего запроса для многошагового поиска ответов на вопросы

Аннотация

Системы генерации с усилением поиска (RAG) сталкиваются с серьезными вызовами в задачах многошагового ответа на вопросы (MHQA), где сложные запросы требуют синтеза информации из нескольких фрагментов документов. Существующие подходы обычно полагаются на итеративное переформулирование и маршрутизацию запросов с использованием больших языковых моделей (LLM), что приводит к высоким вычислительным затратам из-за повторных вызовов LLM и многоэтапных процессов. Для преодоления этих ограничений мы предлагаем TreeHop — фреймворк на уровне эмбеддингов, не требующий использования LLM для уточнения запросов. TreeHop динамически обновляет эмбеддинги запросов, объединяя семантическую информацию из предыдущих запросов и извлеченных документов, что позволяет выполнять итеративный поиск исключительно за счет операций в пространстве эмбеддингов. Этот метод заменяет традиционный цикл "Извлечь-Переформулировать-Векторизовать-Извлечь" на упрощенный цикл "Извлечь-Эмбеддинг-Извлечь", значительно снижая вычислительные затраты. Кроме того, вводится правило остановки на основе правил для дальнейшего сокращения избыточных извлечений, балансируя эффективность и полноту охвата. Экспериментальные результаты показывают, что TreeHop конкурирует с передовыми методами RAG на трех наборах данных для открытых доменов MHQA, достигая сопоставимой производительности при использовании всего 5\%–0,4\% размера параметров модели и сокращая задержку запросов примерно на 99\% по сравнению с современными подходами. Это делает TreeHop более быстрым и экономически эффективным решением для развертывания в различных приложениях, требующих интенсивного использования знаний. Для обеспечения воспроизводимости коды и данные доступны по ссылке: https://github.com/allen-li1231/TreeHop.

English

Retrieval-augmented generation (RAG) systems face significant challenges in multi-hop question answering (MHQA), where complex queries require synthesizing information across multiple document chunks. Existing approaches typically rely on iterative LLM-based query rewriting and routing, resulting in high computational costs due to repeated LLM invocations and multi-stage processes. To address these limitations, we propose TreeHop, an embedding-level framework without the need for LLMs in query refinement. TreeHop dynamically updates query embeddings by fusing semantic information from prior queries and retrieved documents, enabling iterative retrieval through embedding-space operations alone. This method replaces the traditional "Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined "Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead. Moreover, a rule-based stop criterion is introduced to further prune redundant retrievals, balancing efficiency and recall rate. Experimental results show that TreeHop rivals advanced RAG methods across three open-domain MHQA datasets, achieving comparable performance with only 5\%-0.4\% of the model parameter size and reducing the query latency by approximately 99\% compared to concurrent approaches. This makes TreeHop a faster and more cost-effective solution for deployment in a range of knowledge-intensive applications. For reproducibility purposes, codes and data are available here: https://github.com/allen-li1231/TreeHop.

TreeHop: Эффективное генерирование и фильтрация эмбеддингов следующего запроса для многошагового поиска ответов на вопросы

TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Аннотация

Support