ChatPaper.aiChatPaper

BAPO: 信頼性のあるエージェント検索のための境界認識ポリシー最適化

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

January 16, 2026
著者: Shiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su
cs.AI

要旨

強化学習に基づくエージェント型検索は、LLMが動的計画と外部検索によって複雑な質問を解決することを可能にします。このアプローチは大規模強化学習によって最適化されたエージェント方策により精度を大幅に向上させますが、信頼性における重大な課題が存在します。これらのエージェントは自身の推論限界を認識できず、証拠が不十分な場合や推論が限界に達した場合でも「わかりません」(IDK)をほとんど表明しません。この信頼性の欠如は、もっともらしいが信頼できない回答を生み出し、現実世界の多くのシナリオで重大なリスクをもたらします。そこで我々は、精度を損なうことなく信頼性の高い境界認識を育成する新しい強化学習フレームワーク「Boundary-Aware Policy Optimization(BAPO)」を提案します。BAPOは二つの主要コンポーネントを導入します:(i)推論が限界に達した場合にのみIDK応答を促進するグループベースの境界認識報酬、(ii)初期探索段階でこの報酬を戦略的に停止し、モデルがIDKを近道として悪用するのを防ぐ適応型報酬調整器。4つのベンチマークにおける大規模な実験により、BAPOがエージェント型検索の全体的な信頼性を大幅に向上させることを実証しました。
English
RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.
PDF122January 20, 2026