TreeHop: マルチホップ質問応答のための次クエリ埋め込みの効率的な生成とフィルタリング
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering
April 28, 2025
著者: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
cs.AI
要旨
検索拡張生成(RAG)システムは、複雑なクエリが複数の文書チャンクにわたる情報の統合を必要とするマルチホップ質問応答(MHQA)において、重要な課題に直面している。既存のアプローチは、通常、反復的なLLMベースのクエリ書き換えとルーティングに依存しており、LLMの繰り返し呼び出しと多段階プロセスによる高い計算コストが生じる。これらの制限に対処するため、我々はTreeHopを提案する。これは、クエリの精緻化にLLMを必要としない埋め込みレベルのフレームワークである。TreeHopは、以前のクエリと検索された文書からの意味情報を融合することで、クエリ埋め込みを動的に更新し、埋め込み空間操作のみを通じた反復的検索を可能にする。この方法は、従来の「検索-書き換え-ベクトル化-検索」サイクルを、効率化された「検索-埋め込み-検索」ループに置き換え、計算オーバーヘッドを大幅に削減する。さらに、ルールベースの停止基準を導入して冗長な検索をさらに削減し、効率と再現率のバランスを取る。実験結果は、TreeHopが3つのオープンドメインMHQAデータセットにおいて、先進的なRAG手法と同等の性能を達成し、モデルパラメータサイズの5%-0.4%のみで、同時期のアプローチと比較してクエリ遅延を約99%削減することを示している。これにより、TreeHopは、知識集約型アプリケーションの展開において、より高速でコスト効率の良いソリューションとなる。再現性のために、コードとデータは以下で利用可能である:https://github.com/allen-li1231/TreeHop。
English
Retrieval-augmented generation (RAG) systems face significant challenges in
multi-hop question answering (MHQA), where complex queries require synthesizing
information across multiple document chunks. Existing approaches typically rely
on iterative LLM-based query rewriting and routing, resulting in high
computational costs due to repeated LLM invocations and multi-stage processes.
To address these limitations, we propose TreeHop, an embedding-level framework
without the need for LLMs in query refinement. TreeHop dynamically updates
query embeddings by fusing semantic information from prior queries and
retrieved documents, enabling iterative retrieval through embedding-space
operations alone. This method replaces the traditional
"Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined
"Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead.
Moreover, a rule-based stop criterion is introduced to further prune redundant
retrievals, balancing efficiency and recall rate. Experimental results show
that TreeHop rivals advanced RAG methods across three open-domain MHQA
datasets, achieving comparable performance with only 5\%-0.4\% of the model
parameter size and reducing the query latency by approximately 99\% compared to
concurrent approaches. This makes TreeHop a faster and more cost-effective
solution for deployment in a range of knowledge-intensive applications. For
reproducibility purposes, codes and data are available here:
https://github.com/allen-li1231/TreeHop.Summary
AI-Generated Summary