BAPO: Оптимизация стратегии с учетом границ для надежного агентного поиска
BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search
January 16, 2026
Авторы: Shiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su
cs.AI
Аннотация
Агентный поиск на основе обучения с подкреплением позволяет большим языковым моделям решать сложные вопросы с помощью динамического планирования и внешнего поиска. Хотя этот подход значительно повышает точность благодаря политикам агентов, оптимизированным с помощью масштабного обучения с подкреплением, мы выявили критический пробел в надежности: эти агенты не распознают границы своих рассуждений и крайне редко признают «Я НЕ ЗНАЮ» (IDK), даже когда доказательств недостаточно или рассуждения достигают своего предела. Отсутствие надежности часто приводит к правдоподобным, но ненадежным ответам, создающим значительные риски во многих реальных сценариях. Для решения этой проблемы мы предлагаем Boundary-Aware Policy Optimization (BAPO) — новую структуру обучения с подкреплением, предназначенную для формирования надежного осознания границ без ущерба для точности. BAPO включает два ключевых компонента: (i) групповое вознаграждение с учетом границ, которое поощряет ответ IDK только при достижении пределов рассуждений, и (ii) адаптивный модулятор вознаграждения, который стратегически приостанавливает это вознаграждение на ранних этапах исследования, предотвращая использование моделью IDK как лазейки. Многочисленные эксперименты на четырех наборах данных демонстрируют, что BAPO существенно повышает общую надежность агентного поиска.
English
RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.