HierSearch: Un Framework Gerarchico di Ricerca Profonda per Aziende che Integra Ricerche Locali e Web
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches
August 11, 2025
Autori: Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen
cs.AI
Abstract
Recentemente, i modelli di ragionamento su larga scala hanno dimostrato forti capacità matematiche e di programmazione, e la ricerca profonda sfrutta le loro abilità di ragionamento in compiti impegnativi di recupero delle informazioni. Le attuali opere di ricerca profonda sono generalmente limitate a una singola fonte di conoscenza, sia locale che sul Web. Tuttavia, le aziende spesso richiedono sistemi di ricerca profonda privati che possano sfruttare strumenti di ricerca sia su corpus locali che sul Web. Addestrare semplicemente un agente dotato di più strumenti di ricerca utilizzando il reinforcement learning (RL) piatto è un'idea diretta, ma presenta problemi come la bassa efficienza dei dati di addestramento e una scarsa padronanza degli strumenti complessi. Per affrontare il problema sopra descritto, proponiamo un framework gerarchico di ricerca profonda agentica, HierSearch, addestrato con RL gerarchico. A livello basso, un agente di ricerca profonda locale e un agente di ricerca profonda sul Web vengono addestrati per recuperare prove dai rispettivi domini. A livello alto, un agente pianificatore coordina gli agenti di livello basso e fornisce la risposta finale. Inoltre, per prevenire la copiatura diretta delle risposte e la propagazione degli errori, progettiamo un affinatore di conoscenza che filtra le allucinazioni e le prove irrilevanti restituite dagli agenti di livello basso. Gli esperimenti mostrano che HierSearch ottiene prestazioni migliori rispetto al RL piatto e supera varie baseline di ricerca profonda e generazione aumentata con recupero da più fonti in sei benchmark nei domini generale, finanziario e medico.
English
Recently, large reasoning models have demonstrated strong mathematical and
coding abilities, and deep search leverages their reasoning capabilities in
challenging information retrieval tasks. Existing deep search works are
generally limited to a single knowledge source, either local or the Web.
However, enterprises often require private deep search systems that can
leverage search tools over both local and the Web corpus. Simply training an
agent equipped with multiple search tools using flat reinforcement learning
(RL) is a straightforward idea, but it has problems such as low training data
efficiency and poor mastery of complex tools. To address the above issue, we
propose a hierarchical agentic deep search framework, HierSearch, trained with
hierarchical RL. At the low level, a local deep search agent and a Web deep
search agent are trained to retrieve evidence from their corresponding domains.
At the high level, a planner agent coordinates low-level agents and provides
the final answer. Moreover, to prevent direct answer copying and error
propagation, we design a knowledge refiner that filters out hallucinations and
irrelevant evidence returned by low-level agents. Experiments show that
HierSearch achieves better performance compared to flat RL, and outperforms
various deep search and multi-source retrieval-augmented generation baselines
in six benchmarks across general, finance, and medical domains.