HierSearch : Un cadre de recherche hiérarchique en entreprise intégrant les recherches locales et web
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches
August 11, 2025
papers.authors: Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen
cs.AI
papers.abstract
Récemment, les grands modèles de raisonnement ont démontré de solides capacités en mathématiques et en programmation, et la recherche approfondie exploite leurs capacités de raisonnement dans des tâches complexes de recherche d'information. Les travaux existants en recherche approfondie se limitent généralement à une seule source de connaissances, qu'elle soit locale ou sur le Web. Cependant, les entreprises nécessitent souvent des systèmes de recherche approfondie privés capables d'exploiter des outils de recherche à la fois sur des corpus locaux et sur le Web. L'idée simple de former un agent équipé de plusieurs outils de recherche en utilisant l'apprentissage par renforcement (RL) standard est une approche directe, mais elle présente des problèmes tels qu'une faible efficacité des données d'entraînement et une mauvaise maîtrise des outils complexes. Pour résoudre ce problème, nous proposons un cadre de recherche approfondie hiérarchique et agentique, HierSearch, entraîné avec un apprentissage par renforcement hiérarchique. Au niveau inférieur, un agent de recherche approfondie locale et un agent de recherche approfondie sur le Web sont entraînés pour extraire des preuves de leurs domaines respectifs. Au niveau supérieur, un agent planificateur coordonne les agents de niveau inférieur et fournit la réponse finale. De plus, pour éviter la copie directe de réponses et la propagation d'erreurs, nous concevons un raffineur de connaissances qui filtre les hallucinations et les preuves non pertinentes renvoyées par les agents de niveau inférieur. Les expériences montrent que HierSearch obtient de meilleures performances par rapport au RL standard, et surpasse diverses bases de référence en recherche approfondie et en génération augmentée par récupération multi-sources sur six benchmarks couvrant les domaines général, financier et médical.
English
Recently, large reasoning models have demonstrated strong mathematical and
coding abilities, and deep search leverages their reasoning capabilities in
challenging information retrieval tasks. Existing deep search works are
generally limited to a single knowledge source, either local or the Web.
However, enterprises often require private deep search systems that can
leverage search tools over both local and the Web corpus. Simply training an
agent equipped with multiple search tools using flat reinforcement learning
(RL) is a straightforward idea, but it has problems such as low training data
efficiency and poor mastery of complex tools. To address the above issue, we
propose a hierarchical agentic deep search framework, HierSearch, trained with
hierarchical RL. At the low level, a local deep search agent and a Web deep
search agent are trained to retrieve evidence from their corresponding domains.
At the high level, a planner agent coordinates low-level agents and provides
the final answer. Moreover, to prevent direct answer copying and error
propagation, we design a knowledge refiner that filters out hallucinations and
irrelevant evidence returned by low-level agents. Experiments show that
HierSearch achieves better performance compared to flat RL, and outperforms
various deep search and multi-source retrieval-augmented generation baselines
in six benchmarks across general, finance, and medical domains.