HierSearch: Ein hierarchisches Deep-Search-Framework für Unternehmen, das lokale und Web-Suchen integriert
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches
August 11, 2025
papers.authors: Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen
cs.AI
papers.abstract
Kürzlich haben große Reasoning-Modelle starke mathematische und Programmierfähigkeiten gezeigt, und Deep Search nutzt ihre Reasoning-Fähigkeiten bei anspruchsvollen Informationsbeschaffungsaufgaben. Bisherige Deep-Search-Ansätze beschränken sich in der Regel auf eine einzige Wissensquelle, entweder lokal oder das Web. Unternehmen benötigen jedoch oft private Deep-Search-Systeme, die Suchwerkzeuge sowohl über lokale als auch Web-Korpora nutzen können. Ein einfacher Ansatz wäre das Training eines Agenten, der mit mehreren Suchwerkzeugen ausgestattet ist, mittels flachem Reinforcement Learning (RL). Dies hat jedoch Probleme wie geringe Effizienz der Trainingsdaten und mangelnde Beherrschung komplexer Werkzeuge. Um dieses Problem zu lösen, schlagen wir ein hierarchisches agentenbasiertes Deep-Search-Framework, HierSearch, vor, das mit hierarchischem RL trainiert wird. Auf der unteren Ebene werden ein lokaler Deep-Search-Agent und ein Web-Deep-Search-Agent trainiert, um Beweise aus ihren jeweiligen Domänen abzurufen. Auf der oberen Ebene koordiniert ein Planungsagent die untergeordneten Agenten und liefert die endgültige Antwort. Um das direkte Kopieren von Antworten und die Fehlerfortpflanzung zu verhindern, haben wir einen Wissensverfeinerer entwickelt, der Halluzinationen und irrelevante Beweise, die von den untergeordneten Agenten zurückgegeben werden, herausfiltert. Experimente zeigen, dass HierSearch im Vergleich zu flachem RL eine bessere Leistung erzielt und verschiedene Deep-Search- und Multi-Source-Retrieval-Augmented-Generation-Baselines in sechs Benchmarks aus den Bereichen Allgemeinwissen, Finanzen und Medizin übertrifft.
English
Recently, large reasoning models have demonstrated strong mathematical and
coding abilities, and deep search leverages their reasoning capabilities in
challenging information retrieval tasks. Existing deep search works are
generally limited to a single knowledge source, either local or the Web.
However, enterprises often require private deep search systems that can
leverage search tools over both local and the Web corpus. Simply training an
agent equipped with multiple search tools using flat reinforcement learning
(RL) is a straightforward idea, but it has problems such as low training data
efficiency and poor mastery of complex tools. To address the above issue, we
propose a hierarchical agentic deep search framework, HierSearch, trained with
hierarchical RL. At the low level, a local deep search agent and a Web deep
search agent are trained to retrieve evidence from their corresponding domains.
At the high level, a planner agent coordinates low-level agents and provides
the final answer. Moreover, to prevent direct answer copying and error
propagation, we design a knowledge refiner that filters out hallucinations and
irrelevant evidence returned by low-level agents. Experiments show that
HierSearch achieves better performance compared to flat RL, and outperforms
various deep search and multi-source retrieval-augmented generation baselines
in six benchmarks across general, finance, and medical domains.