SAAS: エージェント検索における過剰探索緩和のための自己認識強化学習
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
May 28, 2026
著者: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su
cs.AI
要旨
エージェント的検索により、LLMは反復的な推論と外部検索を通じて複雑なマルチホップ質問を解決できる。その有効性にもかかわらず、これらのシステムは実践上、重要な限界に悩まされることが多い。すなわち、エージェントは自身の知識の境界を認識できず、内部知識で十分な場合にも盲目的に検索を開始し、十分な証拠が収集された後も検索を終了できない。この自己認識の欠如は深刻な過剰検索を引き起こし、大きな推論遅延と法外な計算コストを招く。この問題に対処するため、本稿ではSAASを提案する。これは、精度を損なうことなく検索行動を精密に制御する動的な自己認識を育成するための、新たな強化学習フレームワークである。SAASは以下の3つの主要構成要素を導入する。(i) 検索境界モデリング機構:検索を無効にしたロールアウトと有効にしたロールアウトを対比させることで、進化する方針の下での検索境界を特定する。(ii) 境界認識報酬モジュール:この境界認識を軌跡レベルのペナルティに変換し、不要かつ冗長な検索を抑制する。(iii) 段階的最適化戦略:逐次的カリキュラムを活用して検索の正則化よりも推論を優先し、報酬ハッキングを回避する。広範な実験により、SAASが精度を維持しつつ過剰検索を大幅に削減することが実証された。本コードはhttps://github.com/XMUDeepLIT/SAASにて匿名公開されている。
English
Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.