TreeHop: Generación y Filtrado Eficiente de Incrustaciones de Consultas Siguientes para Respuestas de Múltiples Saltos
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering
April 28, 2025
Autores: Zhonghao Li, Kunpeng Zhang, Jinghuai Ou, Shuliang Liu, Xuming Hu
cs.AI
Resumen
Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) enfrentan desafíos significativos en la tarea de respuesta a preguntas de múltiples saltos (MHQA, por sus siglas en inglés), donde consultas complejas requieren sintetizar información a través de múltiples fragmentos de documentos. Los enfoques existentes suelen depender de la reescritura y enrutamiento iterativo basado en modelos de lenguaje grandes (LLM), lo que resulta en altos costos computacionales debido a las invocaciones repetidas de LLM y procesos de múltiples etapas. Para abordar estas limitaciones, proponemos TreeHop, un marco a nivel de incrustaciones que no requiere LLM en el refinamiento de consultas. TreeHop actualiza dinámicamente las incrustaciones de las consultas fusionando información semántica de consultas previas y documentos recuperados, permitiendo la recuperación iterativa únicamente mediante operaciones en el espacio de incrustaciones. Este método reemplaza el ciclo tradicional de "Recuperar-Reescribir-Vectorizar-Recuperar" con un bucle simplificado de "Recuperar-Incrustar-Recuperar", reduciendo significativamente la sobrecarga computacional. Además, se introduce un criterio de parada basado en reglas para podar recuperaciones redundantes, equilibrando eficiencia y tasa de recuperación. Los resultados experimentales muestran que TreeHop compite con métodos avanzados de RAG en tres conjuntos de datos de MHQA de dominio abierto, logrando un rendimiento comparable con solo el 5\%-0.4\% del tamaño de los parámetros del modelo y reduciendo la latencia de las consultas en aproximadamente un 99\% en comparación con enfoques concurrentes. Esto convierte a TreeHop en una solución más rápida y rentable para su implementación en una variedad de aplicaciones intensivas en conocimiento. Para fines de reproducibilidad, los códigos y datos están disponibles aquí: https://github.com/allen-li1231/TreeHop.
English
Retrieval-augmented generation (RAG) systems face significant challenges in
multi-hop question answering (MHQA), where complex queries require synthesizing
information across multiple document chunks. Existing approaches typically rely
on iterative LLM-based query rewriting and routing, resulting in high
computational costs due to repeated LLM invocations and multi-stage processes.
To address these limitations, we propose TreeHop, an embedding-level framework
without the need for LLMs in query refinement. TreeHop dynamically updates
query embeddings by fusing semantic information from prior queries and
retrieved documents, enabling iterative retrieval through embedding-space
operations alone. This method replaces the traditional
"Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined
"Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead.
Moreover, a rule-based stop criterion is introduced to further prune redundant
retrievals, balancing efficiency and recall rate. Experimental results show
that TreeHop rivals advanced RAG methods across three open-domain MHQA
datasets, achieving comparable performance with only 5\%-0.4\% of the model
parameter size and reducing the query latency by approximately 99\% compared to
concurrent approaches. This makes TreeHop a faster and more cost-effective
solution for deployment in a range of knowledge-intensive applications. For
reproducibility purposes, codes and data are available here:
https://github.com/allen-li1231/TreeHop.Summary
AI-Generated Summary