ChatPaper.aiChatPaper

SmartSearch: Refinamiento de Consultas Guiado por Recompensas de Proceso para Agentes de Búsqueda

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

January 8, 2026
Autores: Tongyu Wen, Guanting Dong, Zhicheng Dou
cs.AI

Resumen

Los agentes de búsqueda basados en modelos de lenguaje grande (LLM) han demostrado ser prometedores para abordar problemas intensivos en conocimiento mediante la incorporación de capacidades de recuperación de información. Los trabajos existentes se centran principalmente en optimizar los paradigmas de razonamiento de los agentes de búsqueda, pero la calidad de las consultas de búsqueda intermedias durante el razonamiento sigue siendo ignorada. Como resultado, las consultas generadas suelen ser inexactas, lo que conduce a resultados de recuperación inesperados y, en última instancia, limita la eficacia general de los agentes de búsqueda. Para mitigar este problema, presentamos SmartSearch, un marco basado en dos mecanismos clave: (1) Recompensas de proceso, que proporcionan supervisión granular para la calidad de cada consulta de búsqueda intermedia mediante una Evaluación de Crédito de Doble Nivel. (2) Refinamiento de consultas, que promueve la optimización de la generación de consultas mediante el refinamiento selectivo de consultas de búsqueda de baja calidad y la regeneración de rondas de búsqueda posteriores basadas en estos refinamientos. Para permitir que el agente de búsqueda internalice progresivamente la capacidad de mejorar la calidad de las consultas bajo la guía de las recompensas de proceso, diseñamos un marco de aprendizaje curricular de tres etapas. Este marco guía al agente a través de una progresión desde la imitación, pasando por la alineación, hasta alcanzar la generalización. Los resultados experimentales muestran que SmartSearch supera consistentemente los baselines existentes, y análisis cuantitativos adicionales confirman sus ganancias significativas tanto en eficiencia de búsqueda como en calidad de consultas. El código está disponible en https://github.com/MYVAE/SmartSearch.
English
Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.
PDF51January 13, 2026