ChatPaper.aiChatPaper

SmartSearch: Процесс уточнения запросов на основе вознаграждения для поисковых агентов

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

January 8, 2026
Авторы: Tongyu Wen, Guanting Dong, Zhicheng Dou
cs.AI

Аннотация

Поисковые агенты на основе больших языковых моделей (LLM) показали свою перспективность для решения задач, требующих обширных знаний, благодаря интеграции возможностей информационного поиска. Существующие работы в основном сосредоточены на оптимизации парадигм рассуждений поисковых агентов, однако качество промежуточных поисковых запросов в процессе рассуждения остается без внимания. В результате генерируемые запросы часто оказываются неточными, что приводит к неожиданным результатам поиска и, в конечном счете, ограничивает общую эффективность поисковых агентов. Для решения этой проблемы мы представляем SmartSearch — фреймворк, построенный на двух ключевых механизмах: (1) Поощрения за процесс, которые обеспечивают детализированный контроль качества каждого промежуточного поискового запроса посредством Двухуровневой Оценки Результативности. (2) Уточнение запросов, которое способствует оптимизации генерации запросов за счет выборочного улучшения низкокачественных поисковых запросов и перегенерации последующих циклов поиска на основе этих уточнений. Чтобы позволить поисковому агенту постепенно интериоризировать способность улучшать качество запросов под руководством поощрений за процесс, мы разработали трехэтапную структуру обучения по учебному плану. Данная структура направляет агента через прогрессию от имитации к согласованию и, наконец, к обобщению. Результаты экспериментов показывают, что SmartSearch стабильно превосходит существующие базовые методы, а дополнительные количественные анализы дополнительно подтверждают его значительный выигрыш как в эффективности поиска, так и в качестве запросов. Код доступен по адресу https://github.com/MYVAE/SmartSearch.
English
Large language model (LLM)-based search agents have proven promising for addressing knowledge-intensive problems by incorporating information retrieval capabilities. Existing works largely focus on optimizing the reasoning paradigms of search agents, yet the quality of intermediate search queries during reasoning remains overlooked. As a result, the generated queries often remain inaccurate, leading to unexpected retrieval results and ultimately limiting search agents' overall effectiveness. To mitigate this issue, we introduce SmartSearch, a framework built upon two key mechanisms: (1) Process rewards, which provide fine-grained supervision for the quality of each intermediate search query through Dual-Level Credit Assessment. (2) Query refinement, which promotes the optimization of query generation by selectively refining low-quality search queries and regenerating subsequent search rounds based on these refinements. To enable the search agent to progressively internalize the ability to improve query quality under the guidance of process rewards, we design a three-stage curriculum learning framework. This framework guides the agent through a progression from imitation, to alignment, and ultimately to generalization. Experimental results show that SmartSearch consistently surpasses existing baselines, and additional quantitative analyses further confirm its significant gains in both search efficiency and query quality. The code is available at https://github.com/MYVAE/SmartSearch.
PDF51January 13, 2026