LLM-gesteuerte hierarchische Abfrage
LLM-guided Hierarchical Retrieval
October 15, 2025
papers.authors: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI
papers.abstract
Moderne IR-Systeme werden zunehmend mit der Aufgabe konfrontiert, komplexe, vielschichtige Anfragen zu beantworten, die tiefgreifendes Denken erfordern, anstatt einfacher Schlüsselwort- oder semantischer Übereinstimmungen. Während LLM-basiertes IR großes Potenzial gezeigt hat, erbt das vorherrschende Retrieve-then-Rerank-Paradigma die Einschränkungen der embedding-basierten Retrieval-Verfahren; parametrische generative Ansätze sind schwer mit neuen Informationen zu aktualisieren; und langkontextuelle Methoden, die das gesamte Korpus in den Kontext stellen, sind für große Dokumentensammlungen rechnerisch nicht praktikabel. Um diese Herausforderungen zu bewältigen, stellen wir LATTICE vor, ein hierarchisches Retrieval-Framework, das es einem LLM ermöglicht, über große Korpora mit logarithmischer Suchkomplexität zu schließen und zu navigieren, indem es dem Korpus eine semantische Baumstruktur auferlegt. Unser Ansatz besteht aus zwei Phasen: (1) einer Offline-Phase, in der der Korpus entweder durch eine Bottom-up-Agglomerationsstrategie oder eine Top-down-Divisionsstrategie mithilfe von mehrstufigen Zusammenfassungen in eine semantische Hierarchie organisiert wird, und (2) einer Online-Traversal-Phase, in der ein Such-LLM diesen Baum durchläuft. Eine zentrale Herausforderung bei solchen LLM-gesteuerten Suchen besteht darin, dass die Relevanzbewertungen des Modells verrauscht, kontextabhängig und sich der Hierarchie nicht bewusst sind, was branchen- und ebenenübergreifende Vergleiche erschwert. Um dies zu überwinden, schlagen wir einen Traversal-Algorithmus vor, der kalibrierte latente Relevanzwerte aus lokalen LLM-Ausgaben schätzt und sie in eine globale Pfadrelevanzmetrik aggregiert. Unser trainingsfreies Framework erreicht state-of-the-art Zero-Shot-Leistungen auf dem reasoning-intensiven BRIGHT-Benchmark und zeigt eine Verbesserung von bis zu 9 % in Recall@100 und 5 % in nDCG@10 gegenüber der nächstbesten Zero-Shot-Baseline. Darüber hinaus erzielt LATTICE im Vergleich zur feinabgestimmten SOTA-Methode DIVER-v2 vergleichbare Ergebnisse auf BRIGHT-Teilbereichen, die einen statischen Korpus für die Bewertung verwenden.
English
Modern IR systems are increasingly tasked with answering complex,
multi-faceted queries that require deep reasoning rather than simple keyword or
semantic matching. While LLM-based IR has shown great promise, the prevailing
retrieve-then-rerank paradigm inherits the limitations of embedding-based
retrieval; parametric generative approaches are difficult to update with new
information; and long-context methods that place the entire corpus in context
are computationally infeasible for large document collections. To address these
challenges, we introduce LATTICE, a hierarchical retrieval framework that
enables an LLM to reason over and navigate large corpora with logarithmic
search complexity by imposing a semantic tree structure on the corpus. Our
approach consists of two stages: (1) an offline phase that organizes the corpus
into a semantic hierarchy via either a bottom-up agglomerative strategy or a
top-down divisive strategy using multi-level summaries and (2) an online
traversal phase where a search LLM navigates this tree. A central challenge in
such LLM-guided search is that the model's relevance judgments are noisy,
context-dependent, and unaware of the hierarchy, making cross-branch and
cross-level comparisons difficult. To overcome this, we propose a traversal
algorithm that estimates calibrated latent relevance scores from local LLM
outputs and aggregates them into a global path relevance metric. Our
training-free framework achieves state-of-the-art zero-shot performance on the
reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in
Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline.
Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains
comparable results on BRIGHT subsets that use a static corpus for evaluation.