LLM誘導型階層的検索
LLM-guided Hierarchical Retrieval
October 15, 2025
著者: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
cs.AI
要旨
現代の情報検索(IR)システムは、単純なキーワードや意味的マッチングではなく、深い推論を必要とする複雑で多面的なクエリに応答することがますます求められている。LLM(大規模言語モデル)ベースのIRは大きな可能性を示しているが、現在主流の「検索後に再ランク付け」というパラダイムは、埋め込みベースの検索の限界を引き継いでいる。パラメトリック生成アプローチは新しい情報で更新することが難しく、長文脈メソッドではコーパス全体を文脈に置くことが大規模な文書コレクションでは計算的に非現実的である。これらの課題に対処するため、我々はLATTICEを導入する。これは、コーパスに意味的ツリー構造を課すことで、LLMが対数的検索複雑度で大規模コーパスを推論し、ナビゲートすることを可能にする階層的検索フレームワークである。我々のアプローチは2段階からなる:(1) オフラインフェーズでは、ボトムアップの凝集戦略またはトップダウンの分割戦略を用いて、多段階の要約を通じてコーパスを意味的階層に組織化し、(2) オンライントラバーサルフェーズでは、検索LLMがこのツリーをナビゲートする。このようなLLM誘導検索における中心的な課題は、モデルの関連性判断がノイズを含み、文脈依存的であり、階層を認識していないため、異なるブランチやレベル間の比較が困難であることである。これを克服するため、我々は、ローカルなLLM出力から校正された潜在関連性スコアを推定し、それらをグローバルなパス関連性メトリックに集約するトラバーサルアルゴリズムを提案する。我々のトレーニング不要のフレームワークは、推論集約型のBRIGHTベンチマークにおいて、ゼロショット性能で最先端を達成し、Recall@100で最大9%、nDCG@10で5%の改善を次の最良のゼロショットベースラインに対して示した。さらに、ファインチューニングされたSOTA手法DIVER-v2と比較して、LATTICEは静的コーパスを使用するBRIGHTサブセットにおいて同等の結果を達成した。
English
Modern IR systems are increasingly tasked with answering complex,
multi-faceted queries that require deep reasoning rather than simple keyword or
semantic matching. While LLM-based IR has shown great promise, the prevailing
retrieve-then-rerank paradigm inherits the limitations of embedding-based
retrieval; parametric generative approaches are difficult to update with new
information; and long-context methods that place the entire corpus in context
are computationally infeasible for large document collections. To address these
challenges, we introduce LATTICE, a hierarchical retrieval framework that
enables an LLM to reason over and navigate large corpora with logarithmic
search complexity by imposing a semantic tree structure on the corpus. Our
approach consists of two stages: (1) an offline phase that organizes the corpus
into a semantic hierarchy via either a bottom-up agglomerative strategy or a
top-down divisive strategy using multi-level summaries and (2) an online
traversal phase where a search LLM navigates this tree. A central challenge in
such LLM-guided search is that the model's relevance judgments are noisy,
context-dependent, and unaware of the hierarchy, making cross-branch and
cross-level comparisons difficult. To overcome this, we propose a traversal
algorithm that estimates calibrated latent relevance scores from local LLM
outputs and aggregates them into a global path relevance metric. Our
training-free framework achieves state-of-the-art zero-shot performance on the
reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in
Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline.
Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains
comparable results on BRIGHT subsets that use a static corpus for evaluation.