ChatPaper.aiChatPaper

SmartSearch: Prozessbelohnungsgesteuerte Abfrageverfeinerung für Suchagenten

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

January 8, 2026
papers.authors: Tongyu Wen, Guanting Dong, Zhicheng Dou
cs.AI

papers.abstract

Suchagenten auf Basis großer Sprachmodelle (Large Language Models, LLMs) haben sich als vielversprechend für die Bewältigung von wissensintensiven Problemen erwiesen, indem sie Information-Retrieval-Fähigkeiten integrieren. Bisherige Arbeiten konzentrieren sich weitgehend auf die Optimierung der Reasoning-Paradigmen von Suchagenten, während die Qualität der intermediären Suchanfragen während des Reasoning-Prozesses weitgehend unberücksichtigt bleibt. Infolgedessen sind die generierten Anfragen oft unpräzise, was zu unerwarteten Retrieval-Ergebnissen führt und letztlich die Gesamteffektivität der Suchagenten begrenzt. Um dieses Problem zu mildern, stellen wir SmartSearch vor, ein Framework, das auf zwei Schlüsselmechanismen aufbaut: (1) Prozessbelohnungen (Process Rewards), die eine feingranulare Überwachung der Qualität jeder intermediären Suchanfrage durch eine Dual-Level-Credit-Assessment ermöglichen. (2) Query-Verfeinerung (Query Refinement), die die Optimierung der Query-Generierung fördert, indem qualitativ minderwertige Suchanfragen selektiv verfeinert und darauf aufbauend nachfolgende Suchrunden neu generiert werden. Um dem Suchagenten zu ermöglichen, die Fähigkeit zur Verbesserung der Query-Qualität unter Anleitung der Prozessbelohnungen schrittweise zu internalisieren, entwerfen wir ein dreistufiges Curriculum-Learning-Framework. Dieses Framework führt den Agenten durch eine Progression von Imitation über Alignment bis hin zur Generalisierung. Experimentelle Ergebnisse zeigen, dass SmartSearch durchgängig bestehende Baseline-Methoden übertrifft, und zusätzliche quantitative Analysen bestätigen weiterhin seine signifikanten Verbesserungen sowohl in der Such Effizienz als auch in der Query-Qualität. Der Code ist verfügbar unter https://github.com/MYVAE/SmartSearch.
English
Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.
PDF51January 13, 2026