TreeHop: Generación y Filtrado Eficiente de Incrustaciones de Consultas Siguientes para Respuestas de Múltiples Saltos

Resumen

Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) enfrentan desafíos significativos en la tarea de respuesta a preguntas de múltiples saltos (MHQA, por sus siglas en inglés), donde consultas complejas requieren sintetizar información a través de múltiples fragmentos de documentos. Los enfoques existentes suelen depender de la reescritura y enrutamiento iterativo basado en modelos de lenguaje grandes (LLM), lo que resulta en altos costos computacionales debido a las invocaciones repetidas de LLM y procesos de múltiples etapas. Para abordar estas limitaciones, proponemos TreeHop, un marco a nivel de incrustaciones que no requiere LLM en el refinamiento de consultas. TreeHop actualiza dinámicamente las incrustaciones de las consultas fusionando información semántica de consultas previas y documentos recuperados, permitiendo la recuperación iterativa únicamente mediante operaciones en el espacio de incrustaciones. Este método reemplaza el ciclo tradicional de "Recuperar-Reescribir-Vectorizar-Recuperar" con un bucle simplificado de "Recuperar-Incrustar-Recuperar", reduciendo significativamente la sobrecarga computacional. Además, se introduce un criterio de parada basado en reglas para podar recuperaciones redundantes, equilibrando eficiencia y tasa de recuperación. Los resultados experimentales muestran que TreeHop compite con métodos avanzados de RAG en tres conjuntos de datos de MHQA de dominio abierto, logrando un rendimiento comparable con solo el 5\%-0.4\% del tamaño de los parámetros del modelo y reduciendo la latencia de las consultas en aproximadamente un 99\% en comparación con enfoques concurrentes. Esto convierte a TreeHop en una solución más rápida y rentable para su implementación en una variedad de aplicaciones intensivas en conocimiento. Para fines de reproducibilidad, los códigos y datos están disponibles aquí: https://github.com/allen-li1231/TreeHop.

English

Retrieval-augmented generation (RAG) systems face significant challenges in multi-hop question answering (MHQA), where complex queries require synthesizing information across multiple document chunks. Existing approaches typically rely on iterative LLM-based query rewriting and routing, resulting in high computational costs due to repeated LLM invocations and multi-stage processes. To address these limitations, we propose TreeHop, an embedding-level framework without the need for LLMs in query refinement. TreeHop dynamically updates query embeddings by fusing semantic information from prior queries and retrieved documents, enabling iterative retrieval through embedding-space operations alone. This method replaces the traditional "Retrieve-Rewrite-Vectorize-Retrieve" cycle with a streamlined "Retrieve-Embed-Retrieve" loop, significantly reducing computational overhead. Moreover, a rule-based stop criterion is introduced to further prune redundant retrievals, balancing efficiency and recall rate. Experimental results show that TreeHop rivals advanced RAG methods across three open-domain MHQA datasets, achieving comparable performance with only 5\%-0.4\% of the model parameter size and reducing the query latency by approximately 99\% compared to concurrent approaches. This makes TreeHop a faster and more cost-effective solution for deployment in a range of knowledge-intensive applications. For reproducibility purposes, codes and data are available here: https://github.com/allen-li1231/TreeHop.

TreeHop: Generación y Filtrado Eficiente de Incrustaciones de Consultas Siguientes para Respuestas de Múltiples Saltos

TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

Resumen

Support