ChatPaper.aiChatPaper

Recuperación Jerárquica Guiada por LLM

LLM-guided Hierarchical Retrieval

October 15, 2025
Autores: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI

Resumen

Los sistemas modernos de recuperación de información (IR) se enfrentan cada vez más a la tarea de responder consultas complejas y multifacéticas que requieren un razonamiento profundo, en lugar de una simple coincidencia de palabras clave o semántica. Aunque los sistemas de IR basados en modelos de lenguaje grandes (LLM) han mostrado un gran potencial, el paradigma predominante de recuperación y posterior reordenación hereda las limitaciones de la recuperación basada en incrustaciones; los enfoques generativos paramétricos son difíciles de actualizar con nueva información; y los métodos de contexto largo, que colocan todo el corpus en contexto, son computacionalmente inviables para grandes colecciones de documentos. Para abordar estos desafíos, presentamos LATTICE, un marco de recuperación jerárquico que permite a un LLM razonar y navegar grandes corpus con una complejidad de búsqueda logarítmica, imponiendo una estructura de árbol semántico sobre el corpus. Nuestro enfoque consta de dos etapas: (1) una fase fuera de línea que organiza el corpus en una jerarquía semántica mediante una estrategia aglomerativa ascendente o una estrategia divisiva descendente utilizando resúmenes multinivel, y (2) una fase de recorrido en línea donde un LLM de búsqueda navega este árbol. Un desafío central en esta búsqueda guiada por LLM es que los juicios de relevancia del modelo son ruidosos, dependientes del contexto y ajenos a la jerarquía, lo que dificulta las comparaciones entre ramas y niveles. Para superar esto, proponemos un algoritmo de recorrido que estima puntuaciones de relevancia latente calibradas a partir de las salidas locales del LLM y las agrega en una métrica global de relevancia de la ruta. Nuestro marco, que no requiere entrenamiento, logra un rendimiento de última generación en el punto de referencia BRIGHT, intensivo en razonamiento, demostrando una mejora de hasta el 9% en Recall@100 y del 5% en nDCG@10 sobre la mejor línea base de cero disparos. Además, en comparación con el método SOTA ajustado DIVER-v2, LATTICE obtiene resultados comparables en subconjuntos de BRIGHT que utilizan un corpus estático para la evaluación.
English
Modern IR systems are increasingly tasked with answering complex, multi-faceted queries that require deep reasoning rather than simple keyword or semantic matching. While LLM-based IR has shown great promise, the prevailing retrieve-then-rerank paradigm inherits the limitations of embedding-based retrieval; parametric generative approaches are difficult to update with new information; and long-context methods that place the entire corpus in context are computationally infeasible for large document collections. To address these challenges, we introduce LATTICE, a hierarchical retrieval framework that enables an LLM to reason over and navigate large corpora with logarithmic search complexity by imposing a semantic tree structure on the corpus. Our approach consists of two stages: (1) an offline phase that organizes the corpus into a semantic hierarchy via either a bottom-up agglomerative strategy or a top-down divisive strategy using multi-level summaries and (2) an online traversal phase where a search LLM navigates this tree. A central challenge in such LLM-guided search is that the model's relevance judgments are noisy, context-dependent, and unaware of the hierarchy, making cross-branch and cross-level comparisons difficult. To overcome this, we propose a traversal algorithm that estimates calibrated latent relevance scores from local LLM outputs and aggregates them into a global path relevance metric. Our training-free framework achieves state-of-the-art zero-shot performance on the reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline. Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains comparable results on BRIGHT subsets that use a static corpus for evaluation.
PDF142October 17, 2025