ChatPaper.aiChatPaper

SmartSearch : Raffinement de requête guidé par récompense de processus pour agents de recherche

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

January 8, 2026
papers.authors: Tongyu Wen, Guanting Dong, Zhicheng Dou
cs.AI

papers.abstract

Les agents de recherche basés sur des grands modèles de langage (LLM) se sont révélés prometteurs pour résoudre des problèmes nécessitant des connaissances étendues en intégrant des capacités de recherche d'information. Les travaux existants se concentrent principalement sur l'optimisation des paradigmes de raisonnement des agents de recherche, tandis que la qualité des requêtes de recherche intermédiaires durant le raisonnement reste négligée. Par conséquent, les requêtes générées demeurent souvent imprécises, conduisant à des résultats de récupération inattendus et limitant in fine l'efficacité globale des agents de recherche. Pour atténuer ce problème, nous présentons SmartSearch, un cadre reposant sur deux mécanismes clés : (1) Les récompenses de processus, qui fournissent une supervision granulaire de la qualité de chaque requête de recherche intermédiaire via une Évaluation de Crédit à Double Niveau. (2) Le raffinement de requêtes, qui favorise l'optimisation de la génération de requêtes en affinant sélectivement les requêtes de recherche de faible qualité et en régénérant les tours de recherche suivants sur la base de ces améliorations. Pour permettre à l'agent de recherche d'intérioriser progressivement la capacité d'améliorer la qualité des requêtes sous la guidance des récompenses de processus, nous concevons un cadre d'apprentissage curriculaire en trois étapes. Ce cadre guide l'agent à travers une progression allant de l'imitation, à l'alignement, et finalement à la généralisation. Les résultats expérimentaux montrent que SmartSearch surpasse constamment les méthodes de référence existantes, et des analyses quantitatives supplémentaires confirment ses gains significatifs tant en efficacité de recherche qu'en qualité des requêtes. Le code est disponible à l'adresse https://github.com/MYVAE/SmartSearch.
English
Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.
PDF51January 13, 2026