LLM 기반 계층적 검색
LLM-guided Hierarchical Retrieval
October 15, 2025
저자: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI
초록
현대 정보 검색(IR) 시스템은 단순한 키워드 또는 의미론적 매칭이 아닌 깊은 추론을 요구하는 복잡하고 다면적인 질의에 응답하는 역할을 점점 더 많이 맡고 있다. LLM(Large Language Model) 기반 IR은 큰 잠재력을 보여주고 있지만, 현재 널리 사용되는 검색 후 재순위화(retrieve-then-rerank) 패러다임은 임베딩 기반 검색의 한계를 그대로 물려받고 있다. 또한, 파라미터 기반 생성 접근법은 새로운 정보로 업데이트하기 어렵고, 전체 코퍼스를 컨텍스트에 포함시키는 장문 컨텍스트 방법은 대규모 문서 집합에 대해 계산적으로 실현 불가능하다. 이러한 문제를 해결하기 위해, 우리는 LATTICE를 소개한다. 이는 계층적 검색 프레임워크로, LLM이 대수적 검색 복잡도로 대규모 코퍼스를 추론하고 탐색할 수 있도록 코퍼스에 의미론적 트리 구조를 부여한다. 우리의 접근 방식은 두 단계로 구성된다: (1) 오프라인 단계에서 다단계 요약을 통해 코퍼스를 하향식 분할 전략 또는 상향식 병합 전략을 사용해 의미론적 계층 구조로 조직화하고, (2) 온라인 탐색 단계에서 검색 LLM이 이 트리를 탐색한다. 이러한 LLM 주도 검색에서의 주요 과제는 모델의 관련성 판단이 노이즈가 많고, 컨텍스트에 의존적이며, 계층 구조를 인식하지 못해 다른 분기 및 수준 간 비교가 어렵다는 점이다. 이를 극복하기 위해, 우리는 로컬 LLM 출력에서 보정된 잠재 관련성 점수를 추정하고 이를 전역 경로 관련성 지표로 집계하는 탐색 알고리즘을 제안한다. 우리의 학습이 필요 없는 프레임워크는 추론 집약적인 BRIGHT 벤치마크에서 최신의 제로샷 성능을 달성하며, Recall@100에서 9%, nDCG@10에서 5%의 향상을 보여준다. 또한, 미세 조정된 최신 방법인 DIVER-v2와 비교했을 때, LATTICE는 평가를 위해 정적 코퍼스를 사용하는 BRIGHT 하위 집합에서 비슷한 결과를 얻는다.
English
Modern IR systems are increasingly tasked with answering complex,
multi-faceted queries that require deep reasoning rather than simple keyword or
semantic matching. While LLM-based IR has shown great promise, the prevailing
retrieve-then-rerank paradigm inherits the limitations of embedding-based
retrieval; parametric generative approaches are difficult to update with new
information; and long-context methods that place the entire corpus in context
are computationally infeasible for large document collections. To address these
challenges, we introduce LATTICE, a hierarchical retrieval framework that
enables an LLM to reason over and navigate large corpora with logarithmic
search complexity by imposing a semantic tree structure on the corpus. Our
approach consists of two stages: (1) an offline phase that organizes the corpus
into a semantic hierarchy via either a bottom-up agglomerative strategy or a
top-down divisive strategy using multi-level summaries and (2) an online
traversal phase where a search LLM navigates this tree. A central challenge in
such LLM-guided search is that the model's relevance judgments are noisy,
context-dependent, and unaware of the hierarchy, making cross-branch and
cross-level comparisons difficult. To overcome this, we propose a traversal
algorithm that estimates calibrated latent relevance scores from local LLM
outputs and aggregates them into a global path relevance metric. Our
training-free framework achieves state-of-the-art zero-shot performance on the
reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in
Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline.
Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains
comparable results on BRIGHT subsets that use a static corpus for evaluation.