LLM-gestuurde hiërarchische retrieva
LLM-guided Hierarchical Retrieval
October 15, 2025
Auteurs: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI
Samenvatting
Moderne IR-systemen worden steeds vaker belast met het beantwoorden van complexe, veelzijdige vragen die diepgaande redenering vereisen in plaats van eenvoudige trefwoord- of semantische matching. Hoewel LLM-gebaseerde IR veelbelovend is gebleken, erft het heersende retrieve-then-rerank paradigma de beperkingen van embedding-gebaseerde retrievals; parametrische generatieve benaderingen zijn moeilijk bij te werken met nieuwe informatie; en lange-context methoden die het volledige corpus in context plaatsen, zijn computationeel onhaalbaar voor grote documentcollecties. Om deze uitdagingen aan te pakken, introduceren we LATTICE, een hiërarchisch retrieval-framework dat een LLM in staat stelt om over grote corpora te redeneren en deze te navigeren met logaritmische zoekcomplexiteit door een semantische boomstructuur op het corpus op te leggen. Onze aanpak bestaat uit twee fasen: (1) een offline fase die het corpus organiseert in een semantische hiërarchie via een bottom-up agglomeratieve strategie of een top-down divisieve strategie met behulp van meerdere niveaus van samenvattingen en (2) een online traversalfase waarin een zoek-LLM deze boom navigeert. Een centrale uitdaging bij dergelijke LLM-geleide zoekopdrachten is dat de relevantiebeoordelingen van het model onnauwkeurig, contextafhankelijk en onbewust van de hiërarchie zijn, waardoor vergelijkingen tussen takken en niveaus moeilijk zijn. Om dit te overwinnen, stellen we een traversaalalgoritme voor dat gekalibreerde latente relevantiescores schat uit lokale LLM-outputs en deze aggregeert tot een globale padrelevantiemetric. Ons trainingsvrije framework behaalt state-of-the-art zero-shot prestaties op de redeneringsintensieve BRIGHT-benchmark, met een verbetering van tot 9% in Recall@100 en 5% in nDCG@10 ten opzichte van de op één na beste zero-shot baseline. Bovendien behaalt LATTICE, vergeleken met de fijn afgestemde SOTA-methode DIVER-v2, vergelijkbare resultaten op BRIGHT-subsetten die een statisch corpus gebruiken voor evaluatie.
English
Modern IR systems are increasingly tasked with answering complex,
multi-faceted queries that require deep reasoning rather than simple keyword or
semantic matching. While LLM-based IR has shown great promise, the prevailing
retrieve-then-rerank paradigm inherits the limitations of embedding-based
retrieval; parametric generative approaches are difficult to update with new
information; and long-context methods that place the entire corpus in context
are computationally infeasible for large document collections. To address these
challenges, we introduce LATTICE, a hierarchical retrieval framework that
enables an LLM to reason over and navigate large corpora with logarithmic
search complexity by imposing a semantic tree structure on the corpus. Our
approach consists of two stages: (1) an offline phase that organizes the corpus
into a semantic hierarchy via either a bottom-up agglomerative strategy or a
top-down divisive strategy using multi-level summaries and (2) an online
traversal phase where a search LLM navigates this tree. A central challenge in
such LLM-guided search is that the model's relevance judgments are noisy,
context-dependent, and unaware of the hierarchy, making cross-branch and
cross-level comparisons difficult. To overcome this, we propose a traversal
algorithm that estimates calibrated latent relevance scores from local LLM
outputs and aggregates them into a global path relevance metric. Our
training-free framework achieves state-of-the-art zero-shot performance on the
reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in
Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline.
Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains
comparable results on BRIGHT subsets that use a static corpus for evaluation.