ChatPaper.aiChatPaper

Récupération hiérarchique guidée par LLM

LLM-guided Hierarchical Retrieval

October 15, 2025
papers.authors: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI

papers.abstract

Les systèmes modernes de recherche d'information (IR) sont de plus en plus sollicités pour répondre à des requêtes complexes et multidimensionnelles qui nécessitent un raisonnement approfondi plutôt qu’un simple appariement de mots-clés ou sémantique. Bien que l’IR basé sur les modèles de langage de grande taille (LLM) ait montré un grand potentiel, le paradigme dominant de récupération puis reclassement hérite des limitations de la récupération basée sur les embeddings ; les approches génératives paramétriques sont difficiles à mettre à jour avec de nouvelles informations ; et les méthodes à contexte long, qui placent l’intégralité du corpus dans le contexte, sont informatiquement irréalisables pour de grandes collections de documents. Pour relever ces défis, nous introduisons LATTICE, un cadre de récupération hiérarchique qui permet à un LLM de raisonner et de naviguer dans de grands corpus avec une complexité de recherche logarithmique en imposant une structure arborescente sémantique au corpus. Notre approche se compose de deux étapes : (1) une phase hors ligne qui organise le corpus en une hiérarchie sémantique via une stratégie agglomérative ascendante ou une stratégie divisive descendante en utilisant des résumés multi-niveaux, et (2) une phase de parcours en ligne où un LLM de recherche navigue dans cet arbre. Un défi central dans une telle recherche guidée par LLM est que les jugements de pertinence du modèle sont bruyants, dépendants du contexte et inconscients de la hiérarchie, rendant les comparaisons inter-branches et inter-niveaux difficiles. Pour surmonter cela, nous proposons un algorithme de parcours qui estime des scores de pertinence latents calibrés à partir des sorties locales du LLM et les agrège en une métrique globale de pertinence du chemin. Notre cadre sans apprentissage atteint des performances de pointe en zéro-shot sur le benchmark BRIGHT, intensif en raisonnement, démontrant une amélioration allant jusqu’à 9 % en Recall@100 et 5 % en nDCG@10 par rapport à la meilleure baseline zéro-shot. De plus, par rapport à la méthode SOTA fine-tunée DIVER-v2, LATTICE obtient des résultats comparables sur les sous-ensembles de BRIGHT qui utilisent un corpus statique pour l’évaluation.
English
Modern IR systems are increasingly tasked with answering complex, multi-faceted queries that require deep reasoning rather than simple keyword or semantic matching. While LLM-based IR has shown great promise, the prevailing retrieve-then-rerank paradigm inherits the limitations of embedding-based retrieval; parametric generative approaches are difficult to update with new information; and long-context methods that place the entire corpus in context are computationally infeasible for large document collections. To address these challenges, we introduce LATTICE, a hierarchical retrieval framework that enables an LLM to reason over and navigate large corpora with logarithmic search complexity by imposing a semantic tree structure on the corpus. Our approach consists of two stages: (1) an offline phase that organizes the corpus into a semantic hierarchy via either a bottom-up agglomerative strategy or a top-down divisive strategy using multi-level summaries and (2) an online traversal phase where a search LLM navigates this tree. A central challenge in such LLM-guided search is that the model's relevance judgments are noisy, context-dependent, and unaware of the hierarchy, making cross-branch and cross-level comparisons difficult. To overcome this, we propose a traversal algorithm that estimates calibrated latent relevance scores from local LLM outputs and aggregates them into a global path relevance metric. Our training-free framework achieves state-of-the-art zero-shot performance on the reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline. Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains comparable results on BRIGHT subsets that use a static corpus for evaluation.
PDF142October 17, 2025