SmartSearch: Proces voor beloningsgestuurde queryverfijning voor zoekagenten
SmartSearch: Process Reward-Guided Query Refinement for Search Agents
January 8, 2026
Auteurs: Tongyu Wen, Guanting Dong, Zhicheng Dou
cs.AI
Samenvatting
Op large language models (LLM) gebaseerde zoekagentschappen hebben hun waarde bewezen bij het aanpakken van kennisintensieve problemen door informatiezoekmogelijkheden te integreren. Bestaand onderzoek richt zich voornamelijk op het optimaliseren van de redeneerparadigma's van zoekagentschappen, waarbij de kwaliteit van tussentijdse zoekquery's tijdens het redeneren vaak over het hoofd wordt gezien. Hierdoor blijven de gegenereerde query's vaak onnauwkeurig, wat leidt tot onverwachte zoekresultaten en uiteindelijk de algehele effectiviteit van zoekagentschappen beperkt. Om dit probleem te verhelpen, introduceren we SmartSearch, een raamwerk gebaseerd op twee belangrijke mechanismen: (1) Procesbeloningen, die gedetailleerd toezicht bieden op de kwaliteit van elke tussentijdse zoekquery via een Dual-Level Credit Assessment. (2) Query-verfijning, dat de optimalisatie van query-generatie bevordert door selectief zoekquery's van lage kwaliteit te verfijnen en daaropvolgende zoekrondes op basis van deze verfijningen opnieuw te genereren. Om het zoekagentschap in staat te stellen het vermogen om querykwaliteit te verbeteren geleidelijk te internaliseren onder begeleiding van procesbeloningen, hebben we een driedelig curriculumleren-raamwerk ontworpen. Dit raamwerk leidt het agentschap door een progressie van imitatie, naar afstemming, en uiteindelijk naar generalisatie. Experimentele resultaten tonen aan dat SmartSearch consistent de bestaande baseline-methoden overtreft, en aanvullende kwantitatieve analyses bevestigen verder de significante verbeteringen in zowel zoekefficiëntie als querykwaliteit. De code is beschikbaar op https://github.com/MYVAE/SmartSearch.
English
Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.