TreeHop : Génération et Filtrage Efficaces des Empreintes de Requêtes Suivantes pour le Question-Réponse Multi-sauts
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering
April 28, 2025
Auteurs: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
cs.AI
Résumé
Les systèmes de génération augmentée par récupération (RAG) rencontrent des défis importants dans le domaine des réponses à questions multi-sauts (MHQA), où des requêtes complexes nécessitent la synthèse d'informations provenant de plusieurs segments de documents. Les approches existantes reposent généralement sur la réécriture et le routage itératifs des requêtes basés sur des modèles de langage de grande taille (LLM), entraînant des coûts de calcul élevés en raison des invocations répétées des LLM et des processus multi-étapes. Pour surmonter ces limitations, nous proposons TreeHop, un cadre opérant au niveau des embeddings sans nécessiter de LLM pour l'affinement des requêtes. TreeHop met à jour dynamiquement les embeddings des requêtes en fusionnant les informations sémantiques des requêtes précédentes et des documents récupérés, permettant une récupération itérative uniquement par des opérations dans l'espace des embeddings. Cette méthode remplace le cycle traditionnel "Récupérer-Réécrire-Vectoriser-Récupérer" par une boucle simplifiée "Récupérer-Embed-Récupérer", réduisant significativement la surcharge de calcul. De plus, un critère d'arrêt basé sur des règles est introduit pour élaguer davantage les récupérations redondantes, équilibrant ainsi l'efficacité et le taux de rappel. Les résultats expérimentaux montrent que TreeHop rivalise avec les méthodes RAG avancées sur trois ensembles de données MHQA en domaine ouvert, atteignant des performances comparables avec seulement 5\%-0.4\% de la taille des paramètres du modèle et réduisant la latence des requêtes d'environ 99\% par rapport aux approches concurrentes. Cela fait de TreeHop une solution plus rapide et plus économique pour le déploiement dans une gamme d'applications nécessitant une connaissance intensive. Pour des raisons de reproductibilité, les codes et les données sont disponibles ici : https://github.com/allen-li1231/TreeHop.
English
Retrieval-augmented generation (RAG) systems face significant challenges in
multi-hop question answering (MHQA), where complex queries require synthesizing
information across multiple document chunks. Existing approaches typically rely
on iterative LLM-based query rewriting and routing, resulting in high
computational costs due to repeated LLM invocations and multi-stage processes.
To address these limitations, we propose TreeHop, an embedding-level framework
without the need for LLMs in query refinement. TreeHop dynamically updates
query embeddings by fusing semantic information from prior queries and
retrieved documents, enabling iterative retrieval through embedding-space
operations alone. This method replaces the traditional
"Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined
"Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead.
Moreover, a rule-based stop criterion is introduced to further prune redundant
retrievals, balancing efficiency and recall rate. Experimental results show
that TreeHop rivals advanced RAG methods across three open-domain MHQA
datasets, achieving comparable performance with only 5\%-0.4\% of the model
parameter size and reducing the query latency by approximately 99\% compared to
concurrent approaches. This makes TreeHop a faster and more cost-effective
solution for deployment in a range of knowledge-intensive applications. For
reproducibility purposes, codes and data are available here:
https://github.com/allen-li1231/TreeHop.