Récupération hiérarchique guidée par LLM
LLM-guided Hierarchical Retrieval
October 15, 2025
papers.authors: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI
papers.abstract
Les systèmes modernes de recherche d'information (IR) sont de plus en plus sollicités pour répondre à des requêtes complexes et multidimensionnelles qui nécessitent un raisonnement approfondi plutôt qu’un simple appariement de mots-clés ou sémantique. Bien que l’IR basé sur les modèles de langage de grande taille (LLM) ait montré un grand potentiel, le paradigme dominant de récupération puis reclassement hérite des limitations de la récupération basée sur les embeddings ; les approches génératives paramétriques sont difficiles à mettre à jour avec de nouvelles informations ; et les méthodes à contexte long, qui placent l’intégralité du corpus dans le contexte, sont informatiquement irréalisables pour de grandes collections de documents. Pour relever ces défis, nous introduisons LATTICE, un cadre de récupération hiérarchique qui permet à un LLM de raisonner et de naviguer dans de grands corpus avec une complexité de recherche logarithmique en imposant une structure arborescente sémantique au corpus. Notre approche se compose de deux étapes : (1) une phase hors ligne qui organise le corpus en une hiérarchie sémantique via une stratégie agglomérative ascendante ou une stratégie divisive descendante en utilisant des résumés multi-niveaux, et (2) une phase de parcours en ligne où un LLM de recherche navigue dans cet arbre. Un défi central dans une telle recherche guidée par LLM est que les jugements de pertinence du modèle sont bruyants, dépendants du contexte et inconscients de la hiérarchie, rendant les comparaisons inter-branches et inter-niveaux difficiles. Pour surmonter cela, nous proposons un algorithme de parcours qui estime des scores de pertinence latents calibrés à partir des sorties locales du LLM et les agrège en une métrique globale de pertinence du chemin. Notre cadre sans apprentissage atteint des performances de pointe en zéro-shot sur le benchmark BRIGHT, intensif en raisonnement, démontrant une amélioration allant jusqu’à 9 % en Recall@100 et 5 % en nDCG@10 par rapport à la meilleure baseline zéro-shot. De plus, par rapport à la méthode SOTA fine-tunée DIVER-v2, LATTICE obtient des résultats comparables sur les sous-ensembles de BRIGHT qui utilisent un corpus statique pour l’évaluation.
English
Modern IR systems are increasingly tasked with answering complex,
multi-faceted queries that require deep reasoning rather than simple keyword or
semantic matching. While LLM-based IR has shown great promise, the prevailing
retrieve-then-rerank paradigm inherits the limitations of embedding-based
retrieval; parametric generative approaches are difficult to update with new
information; and long-context methods that place the entire corpus in context
are computationally infeasible for large document collections. To address these
challenges, we introduce LATTICE, a hierarchical retrieval framework that
enables an LLM to reason over and navigate large corpora with logarithmic
search complexity by imposing a semantic tree structure on the corpus. Our
approach consists of two stages: (1) an offline phase that organizes the corpus
into a semantic hierarchy via either a bottom-up agglomerative strategy or a
top-down divisive strategy using multi-level summaries and (2) an online
traversal phase where a search LLM navigates this tree. A central challenge in
such LLM-guided search is that the model's relevance judgments are noisy,
context-dependent, and unaware of the hierarchy, making cross-branch and
cross-level comparisons difficult. To overcome this, we propose a traversal
algorithm that estimates calibrated latent relevance scores from local LLM
outputs and aggregates them into a global path relevance metric. Our
training-free framework achieves state-of-the-art zero-shot performance on the
reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in
Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline.
Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains
comparable results on BRIGHT subsets that use a static corpus for evaluation.