HierSearch: Um Framework Hierárquico de Busca Profunda em Empresas Integrando Pesquisas Locais e na Web
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches
August 11, 2025
Autores: Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen
cs.AI
Resumo
Recentemente, grandes modelos de raciocínio demonstraram fortes habilidades matemáticas e de codificação, e a busca profunda aproveita suas capacidades de raciocínio em tarefas desafiadoras de recuperação de informações. Os trabalhos existentes de busca profunda geralmente se limitam a uma única fonte de conhecimento, seja local ou da Web. No entanto, as empresas frequentemente exigem sistemas de busca profunda privados que possam utilizar ferramentas de busca tanto em corpus locais quanto na Web. Simplesmente treinar um agente equipado com múltiplas ferramentas de busca usando aprendizado por reforço (RL) plano é uma ideia direta, mas apresenta problemas como baixa eficiência de dados de treinamento e domínio insuficiente de ferramentas complexas. Para resolver o problema acima, propomos um framework hierárquico de busca profunda agentiva, HierSearch, treinado com RL hierárquico. No nível baixo, um agente de busca profunda local e um agente de busca profunda na Web são treinados para recuperar evidências de seus respectivos domínios. No nível alto, um agente planejador coordena os agentes de nível baixo e fornece a resposta final. Além disso, para evitar a cópia direta de respostas e a propagação de erros, projetamos um refinador de conhecimento que filtra alucinações e evidências irrelevantes retornadas pelos agentes de nível baixo. Experimentos mostram que o HierSearch alcança um desempenho melhor em comparação com o RL plano, e supera várias baselines de busca profunda e geração aumentada por recuperação de múltiplas fontes em seis benchmarks nos domínios geral, financeiro e médico.
English
Recently, large reasoning models have demonstrated strong mathematical and
coding abilities, and deep search leverages their reasoning capabilities in
challenging information retrieval tasks. Existing deep search works are
generally limited to a single knowledge source, either local or the Web.
However, enterprises often require private deep search systems that can
leverage search tools over both local and the Web corpus. Simply training an
agent equipped with multiple search tools using flat reinforcement learning
(RL) is a straightforward idea, but it has problems such as low training data
efficiency and poor mastery of complex tools. To address the above issue, we
propose a hierarchical agentic deep search framework, HierSearch, trained with
hierarchical RL. At the low level, a local deep search agent and a Web deep
search agent are trained to retrieve evidence from their corresponding domains.
At the high level, a planner agent coordinates low-level agents and provides
the final answer. Moreover, to prevent direct answer copying and error
propagation, we design a knowledge refiner that filters out hallucinations and
irrelevant evidence returned by low-level agents. Experiments show that
HierSearch achieves better performance compared to flat RL, and outperforms
various deep search and multi-source retrieval-augmented generation baselines
in six benchmarks across general, finance, and medical domains.