TreeHop : Génération et Filtrage Efficaces des Empreintes de Requêtes Suivantes pour le Question-Réponse Multi-sauts

papers.abstract

Les systèmes de génération augmentée par récupération (RAG) rencontrent des défis importants dans le domaine des réponses à questions multi-sauts (MHQA), où des requêtes complexes nécessitent la synthèse d'informations provenant de plusieurs segments de documents. Les approches existantes reposent généralement sur la réécriture et le routage itératifs des requêtes basés sur des modèles de langage de grande taille (LLM), entraînant des coûts de calcul élevés en raison des invocations répétées des LLM et des processus multi-étapes. Pour surmonter ces limitations, nous proposons TreeHop, un cadre opérant au niveau des embeddings sans nécessiter de LLM pour l'affinement des requêtes. TreeHop met à jour dynamiquement les embeddings des requêtes en fusionnant les informations sémantiques des requêtes précédentes et des documents récupérés, permettant une récupération itérative uniquement par des opérations dans l'espace des embeddings. Cette méthode remplace le cycle traditionnel "Récupérer-Réécrire-Vectoriser-Récupérer" par une boucle simplifiée "Récupérer-Embed-Récupérer", réduisant significativement la surcharge de calcul. De plus, un critère d'arrêt basé sur des règles est introduit pour élaguer davantage les récupérations redondantes, équilibrant ainsi l'efficacité et le taux de rappel. Les résultats expérimentaux montrent que TreeHop rivalise avec les méthodes RAG avancées sur trois ensembles de données MHQA en domaine ouvert, atteignant des performances comparables avec seulement 5\%-0.4\% de la taille des paramètres du modèle et réduisant la latence des requêtes d'environ 99\% par rapport aux approches concurrentes. Cela fait de TreeHop une solution plus rapide et plus économique pour le déploiement dans une gamme d'applications nécessitant une connaissance intensive. Pour des raisons de reproductibilité, les codes et les données sont disponibles ici : https://github.com/allen-li1231/TreeHop.

English

Retrieval-augmented generation (RAG) systems face significant challenges in multi-hop question answering (MHQA), where complex queries require synthesizing information across multiple document chunks. Existing approaches typically rely on iterative LLM-based query rewriting and routing, resulting in high computational costs due to repeated LLM invocations and multi-stage processes. To address these limitations, we propose TreeHop, an embedding-level framework without the need for LLMs in query refinement. TreeHop dynamically updates query embeddings by fusing semantic information from prior queries and retrieved documents, enabling iterative retrieval through embedding-space operations alone. This method replaces the traditional "Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined "Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead. Moreover, a rule-based stop criterion is introduced to further prune redundant retrievals, balancing efficiency and recall rate. Experimental results show that TreeHop rivals advanced RAG methods across three open-domain MHQA datasets, achieving comparable performance with only 5\%-0.4\% of the model parameter size and reducing the query latency by approximately 99\% compared to concurrent approaches. This makes TreeHop a faster and more cost-effective solution for deployment in a range of knowledge-intensive applications. For reproducibility purposes, codes and data are available here: https://github.com/allen-li1231/TreeHop.

TreeHop : Génération et Filtrage Efficaces des Empreintes de Requêtes Suivantes pour le Question-Réponse Multi-sauts

TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

papers.abstract

Support