TreeHop: Generazione e Filtraggio Efficiente degli Embedding delle Query Successive per il Question Answering Multi-hop

Abstract

I sistemi di generazione aumentata da recupero (RAG) affrontano sfide significative nel rispondere a domande multi-hop (MHQA), dove query complesse richiedono la sintesi di informazioni provenienti da più frammenti di documenti. Gli approcci esistenti si basano tipicamente su riscritture e instradamenti iterativi delle query basati su LLM, risultando in elevati costi computazionali dovuti a ripetute invocazioni di LLM e processi multi-stadio. Per superare queste limitazioni, proponiamo TreeHop, un framework a livello di embedding che non richiede l'uso di LLM per il perfezionamento delle query. TreeHop aggiorna dinamicamente gli embedding delle query fondendo informazioni semantiche provenienti da query precedenti e documenti recuperati, consentendo un recupero iterativo esclusivamente attraverso operazioni nello spazio degli embedding. Questo metodo sostituisce il tradizionale ciclo "Recupera-Riscrivi-Vettorizza-Recupera" con un flusso semplificato "Recupera-Embed-Recupera", riducendo significativamente l'overhead computazionale. Inoltre, viene introdotto un criterio di arresto basato su regole per ulteriormente eliminare recuperi ridondanti, bilanciando efficienza e tasso di richiamo. I risultati sperimentali mostrano che TreeHop rivaleggia con metodi RAG avanzati su tre dataset MHQA a dominio aperto, raggiungendo prestazioni comparabili con solo il 5%-0,4% delle dimensioni dei parametri del modello e riducendo la latenza delle query di circa il 99% rispetto agli approcci concorrenti. Ciò rende TreeHop una soluzione più veloce e conveniente per l'implementazione in una gamma di applicazioni ad alta intensità di conoscenza. Per scopi di riproducibilità, i codici e i dati sono disponibili qui: https://github.com/allen-li1231/TreeHop.

English

Retrieval-augmented generation (RAG) systems face significant challenges in multi-hop question answering (MHQA), where complex queries require synthesizing information across multiple document chunks. Existing approaches typically rely on iterative LLM-based query rewriting and routing, resulting in high computational costs due to repeated LLM invocations and multi-stage processes. To address these limitations, we propose TreeHop, an embedding-level framework without the need for LLMs in query refinement. TreeHop dynamically updates query embeddings by fusing semantic information from prior queries and retrieved documents, enabling iterative retrieval through embedding-space operations alone. This method replaces the traditional "Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined "Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead. Moreover, a rule-based stop criterion is introduced to further prune redundant retrievals, balancing efficiency and recall rate. Experimental results show that TreeHop rivals advanced RAG methods across three open-domain MHQA datasets, achieving comparable performance with only 5\%-0.4\% of the model parameter size and reducing the query latency by approximately 99\% compared to concurrent approaches. This makes TreeHop a faster and more cost-effective solution for deployment in a range of knowledge-intensive applications. For reproducibility purposes, codes and data are available here: https://github.com/allen-li1231/TreeHop.

TreeHop: Generazione e Filtraggio Efficiente degli Embedding delle Query Successive per il Question Answering Multi-hop

TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Abstract

Support