TreeHop: Genereer en Filter Volgende Query-Embeddings Efficiënt voor Multi-hop Vraagbeantwoording
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering
April 28, 2025
Auteurs: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
cs.AI
Samenvatting
Retrieval-augmented generation (RAG)-systemen worden geconfronteerd met aanzienlijke uitdagingen bij multi-hop vraagbeantwoording (MHQA), waarbij complexe vragen het synthetiseren van informatie uit meerdere documentfragmenten vereisen. Bestaande benaderingen vertrouwen doorgaans op iteratieve LLM-gebaseerde queryherformulering en routering, wat resulteert in hoge computationele kosten vanwege herhaalde LLM-aanroepen en meerfasige processen. Om deze beperkingen aan te pakken, stellen we TreeHop voor, een embedding-level framework zonder de noodzaak van LLM's bij queryverfijning. TreeHop werkt query-embeddings dynamisch bij door semantische informatie uit eerdere queries en opgehaalde documenten te combineren, waardoor iteratieve retrieval mogelijk wordt via embedding-space operaties alleen. Deze methode vervangt de traditionele "Retrieve-Rewrite-Vectorize-Retrieve"-cyclus door een gestroomlijnde "Retrieve-Embed-Retrieve"-lus, wat de computationele overhead aanzienlijk vermindert. Bovendien wordt een op regels gebaseerd stopcriterium geïntroduceerd om overbodige retrievals verder te beperken, waardoor efficiëntie en recall-rate in balans worden gebracht. Experimentele resultaten tonen aan dat TreeHop concurreert met geavanceerde RAG-methoden op drie open-domain MHQA-datasets, waarbij vergelijkbare prestaties worden bereikt met slechts 5\%-0,4\% van de modelparametergrootte en de querylatentie met ongeveer 99\% wordt verminderd in vergelijking met gelijktijdige benaderingen. Dit maakt TreeHop een snellere en kosteneffectievere oplossing voor implementatie in een reeks kennisintensieve toepassingen. Voor reproduceerbaarheid zijn codes en gegevens hier beschikbaar: https://github.com/allen-li1231/TreeHop.
English
Retrieval-augmented generation (RAG) systems face significant challenges in
multi-hop question answering (MHQA), where complex queries require synthesizing
information across multiple document chunks. Existing approaches typically rely
on iterative LLM-based query rewriting and routing, resulting in high
computational costs due to repeated LLM invocations and multi-stage processes.
To address these limitations, we propose TreeHop, an embedding-level framework
without the need for LLMs in query refinement. TreeHop dynamically updates
query embeddings by fusing semantic information from prior queries and
retrieved documents, enabling iterative retrieval through embedding-space
operations alone. This method replaces the traditional
"Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined
"Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead.
Moreover, a rule-based stop criterion is introduced to further prune redundant
retrievals, balancing efficiency and recall rate. Experimental results show
that TreeHop rivals advanced RAG methods across three open-domain MHQA
datasets, achieving comparable performance with only 5\%-0.4\% of the model
parameter size and reducing the query latency by approximately 99\% compared to
concurrent approaches. This makes TreeHop a faster and more cost-effective
solution for deployment in a range of knowledge-intensive applications. For
reproducibility purposes, codes and data are available here:
https://github.com/allen-li1231/TreeHop.Summary
AI-Generated Summary