TreeHop: Geração e Filtragem Eficiente de Embeddings de Próximas Consultas para Resposta a Perguntas de Múltiplos Saltos
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering
April 28, 2025
Autores: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
cs.AI
Resumo
Sistemas de geração aumentada por recuperação (RAG) enfrentam desafios significativos na resposta a perguntas de múltiplos saltos (MHQA), onde consultas complexas exigem a síntese de informações em vários trechos de documentos. As abordagens existentes geralmente dependem de reescrita e roteamento iterativos baseados em LLM (Large Language Models), resultando em altos custos computacionais devido a invocações repetidas de LLM e processos em múltiplas etapas. Para superar essas limitações, propomos o TreeHop, um framework em nível de incorporação que dispensa o uso de LLMs no refinamento de consultas. O TreeHop atualiza dinamicamente as incorporações de consultas ao fundir informações semânticas de consultas anteriores e documentos recuperados, permitindo a recuperação iterativa apenas por meio de operações no espaço de incorporação. Esse método substitui o ciclo tradicional "Recuperar-Reescrever-Vetorizar-Recuperar" por um loop simplificado "Recuperar-Incorporar-Recuperar", reduzindo significativamente a sobrecarga computacional. Além disso, um critério de parada baseado em regras é introduzido para podar ainda mais recuperações redundantes, equilibrando eficiência e taxa de recall. Resultados experimentais mostram que o TreeHop rivaliza com métodos RAG avançados em três conjuntos de dados MHQA de domínio aberto, alcançando desempenho comparável com apenas 5%-0,4% do tamanho dos parâmetros do modelo e reduzindo a latência das consultas em aproximadamente 99% em comparação com abordagens concorrentes. Isso torna o TreeHop uma solução mais rápida e econômica para implantação em uma variedade de aplicações intensivas em conhecimento. Para fins de reprodutibilidade, códigos e dados estão disponíveis aqui: https://github.com/allen-li1231/TreeHop.
English
Retrieval-augmented generation (RAG) systems face significant challenges in
multi-hop question answering (MHQA), where complex queries require synthesizing
information across multiple document chunks. Existing approaches typically rely
on iterative LLM-based query rewriting and routing, resulting in high
computational costs due to repeated LLM invocations and multi-stage processes.
To address these limitations, we propose TreeHop, an embedding-level framework
without the need for LLMs in query refinement. TreeHop dynamically updates
query embeddings by fusing semantic information from prior queries and
retrieved documents, enabling iterative retrieval through embedding-space
operations alone. This method replaces the traditional
"Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined
"Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead.
Moreover, a rule-based stop criterion is introduced to further prune redundant
retrievals, balancing efficiency and recall rate. Experimental results show
that TreeHop rivals advanced RAG methods across three open-domain MHQA
datasets, achieving comparable performance with only 5\%-0.4\% of the model
parameter size and reducing the query latency by approximately 99\% compared to
concurrent approaches. This makes TreeHop a faster and more cost-effective
solution for deployment in a range of knowledge-intensive applications. For
reproducibility purposes, codes and data are available here:
https://github.com/allen-li1231/TreeHop.Summary
AI-Generated Summary