SAAS: Самоосознающее обучение с подкреплением для смягчения чрезмерного поиска в агентном поиске

Аннотация

Агентный поиск позволяет большим языковым моделям решать сложные многошаговые вопросы за счет итеративного рассуждения и внешнего поиска. Несмотря на эффективность, такие системы на практике часто страдают от критического ограничения: агенты не могут распознать границы собственных знаний, слепо инициируя поиск, когда внутренних знаний достаточно, и не прекращая поиск даже после сбора необходимого объема доказательств. Отсутствие самоосознания приводит к сильному избыточному поиску, что влечет за собой значительную задержку инференса и высокие вычислительные затраты. Для решения этой проблемы мы предлагаем SAAS — новый фреймворк обучения с подкреплением, предназначенный для развития динамического самоосознания, которое точно регулирует поведение поиска без потери точности. SAAS включает три ключевых компонента: (i) механизм моделирования границ поиска, который выявляет границу поиска при развивающейся политике путем сопоставления траекторий с отключенным и включенным поиском; (ii) модуль вознаграждения с учетом границ, который преобразует это осознание границ в штрафы на уровне траектории, подавляя ненужные и избыточные поиски; и (iii) поэтапную стратегию оптимизации, использующую последовательный учебный план для приоритета рассуждения над регуляризацией поиска, что позволяет избежать искажения вознаграждения. Обширные эксперименты показывают, что SAAS существенно сокращает избыточный поиск, сохраняя при этом точность. Наш код анонимно опубликован по адресу https://github.com/XMUDeepLIT/SAAS.

English

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.