HierSearch: ローカル検索とウェブ検索を統合した階層型エンタープライズ深層検索フレームワーク
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches
August 11, 2025
著者: Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen
cs.AI
要旨
近年、大規模推論モデルは数学的・コーディング能力において優れた性能を示しており、ディープサーチはその推論能力を活用して困難な情報検索タスクに取り組んでいます。既存のディープサーチ研究は、一般的にローカルまたはWebのいずれか単一の知識源に限定されています。しかし、企業ではローカルとWebの両方のコーパスを活用できるプライベートなディープサーチシステムを必要とすることが多いです。複数の検索ツールを備えたエージェントを単純な強化学習(RL)で訓練するのは直感的なアイデアですが、訓練データの効率が低い、複雑なツールの習熟が不十分といった問題があります。この課題を解決するため、我々は階層型RLで訓練される階層型エージェントディープサーチフレームワーク「HierSearch」を提案します。下位レベルでは、ローカルディープサーチエージェントとWebディープサーチエージェントがそれぞれの領域から証拠を検索するように訓練されます。上位レベルでは、プランナーエージェントが下位レベルのエージェントを調整し、最終的な回答を提供します。さらに、直接的な回答のコピーやエラーの伝播を防ぐため、下位レベルのエージェントが返す虚偽や無関係な証拠をフィルタリングする知識精製器を設計しました。実験の結果、HierSearchは単純なRLと比較して優れた性能を達成し、一般、金融、医療の各領域にわたる6つのベンチマークにおいて、様々なディープサーチおよび複数源検索拡張生成のベースラインを上回りました。
English
Recently, large reasoning models have demonstrated strong mathematical and
coding abilities, and deep search leverages their reasoning capabilities in
challenging information retrieval tasks. Existing deep search works are
generally limited to a single knowledge source, either local or the Web.
However, enterprises often require private deep search systems that can
leverage search tools over both local and the Web corpus. Simply training an
agent equipped with multiple search tools using flat reinforcement learning
(RL) is a straightforward idea, but it has problems such as low training data
efficiency and poor mastery of complex tools. To address the above issue, we
propose a hierarchical agentic deep search framework, HierSearch, trained with
hierarchical RL. At the low level, a local deep search agent and a Web deep
search agent are trained to retrieve evidence from their corresponding domains.
At the high level, a planner agent coordinates low-level agents and provides
the final answer. Moreover, to prevent direct answer copying and error
propagation, we design a knowledge refiner that filters out hallucinations and
irrelevant evidence returned by low-level agents. Experiments show that
HierSearch achieves better performance compared to flat RL, and outperforms
various deep search and multi-source retrieval-augmented generation baselines
in six benchmarks across general, finance, and medical domains.