SmartSearch: Refinamento de Consultas Guiado por Recompensas de Processo para Agentes de Busca

Resumo

Os agentes de busca baseados em modelos de linguagem de grande escala (LLM) têm se mostrado promissores para resolver problemas que demandam grande conhecimento, incorporando capacidades de recuperação de informação. Os trabalhos existentes concentram-se principalmente na otimização dos paradigmas de raciocínio dos agentes de busca, enquanto a qualidade das consultas de busca intermediárias durante o raciocínio permanece negligenciada. Como resultado, as consultas geradas frequentemente permanecem imprecisas, levando a resultados de recuperação inesperados e, por fim, limitando a eficácia geral dos agentes de busca. Para mitigar este problema, introduzimos o SmartSearch, uma estrutura construída sobre dois mecanismos-chave: (1) Recompensas de processo, que fornecem supervisão refinada para a qualidade de cada consulta de busca intermediária através da Avaliação de Crédito de Duplo Nível. (2) Refinamento de consulta, que promove a otimização da geração de consultas, refinando seletivamente consultas de busca de baixa qualidade e regenerando rodadas de busca subsequentes com base nestes refinamentos. Para permitir que o agente de busca internalize progressivamente a capacidade de melhorar a qualidade da consulta sob a orientação das recompensas de processo, projetamos uma estrutura de aprendizagem curricular em três estágios. Esta estrutura guia o agente através de uma progressão que vai da imitação, para o alinhamento, e finalmente para a generalização. Resultados experimentais mostram que o SmartSearch supera consistentemente as linhas de base existentes, e análises quantitativas adicionais confirmam ainda mais seus ganhos significativos tanto na eficiência da busca quanto na qualidade das consultas. O código está disponível em https://github.com/MYVAE/SmartSearch.

English

Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.

SmartSearch: Refinamento de Consultas Guiado por Recompensas de Processo para Agentes de Busca

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

Resumo

Support