SmartSearch: Raffinamento delle Query Guidato dal Processo di Ricompensa per Agenti di Ricerca

Abstract

Gli agenti di ricerca basati su Large Language Model (LLM) si sono dimostrati promettenti per affrontare problemi ad alta intensità di conoscenza grazie all'integrazione di capacità di information retrieval. I lavori esistenti si concentrano prevalentemente sull'ottimizzazione dei paradigmi di ragionamento degli agenti di ricerca, trascurando però la qualità delle query di ricerca intermedie generate durante il processo. Di conseguenza, le query generate risultano spesso inaccurate, portando a risultati di retrieval inattesi e limitando in ultima analisi l'efficacia complessiva degli agenti. Per mitigare questo problema, introduciamo SmartSearch, un framework basato su due meccanismi chiave: (1) Ricompense di processo, che forniscono una supervisione granulare della qualità di ogni query di ricerca intermedia attraverso una Valutazione del Credito a Doppio Livello. (2) Affinamento delle query, che promuove l'ottimizzazione della generazione delle query mediante la raffinazione selettiva di query di ricerca di bassa qualità e la rigenerazione dei successivi round di ricerca basandosi su questi affinamenti. Per permettere all'agente di ricerca di interiorizzare progressivamente la capacità di migliorare la qualità delle query sotto la guida delle ricompense di processo, progettiamo un framework di apprendimento curriculare a tre stadi. Questo framework guida l'agente attraverso una progressione dall'imitazione, all'allineamento, fino alla generalizzazione. I risultati sperimentali mostrano che SmartSearch supera costantemente i baseline esistenti, e ulteriori analisi quantitative confermano i suoi significativi guadagni sia in termini di efficienza di ricerca che di qualità delle query. Il codice è disponibile all'indirizzo https://github.com/MYVAE/SmartSearch.

English

Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.

SmartSearch: Raffinamento delle Query Guidato dal Processo di Ricompensa per Agenti di Ricerca

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

Abstract

Support