ChatPaper.aiChatPaper

BAPO: Grenzbereichsbewusste Policy-Optimierung für zuverlässige agentenbasierte Suche

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

January 16, 2026
papers.authors: Shiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su
cs.AI

papers.abstract

Agentenbasierte Suche mittels Reinforcement Learning (RL) ermöglicht es großen Sprachmodellen (LLMs), komplexe Fragen durch dynamische Planung und externe Suche zu lösen. Während dieser Ansatz die Genauigkeit durch agentenoptimierte Richtlinien, die mittels Reinforcement Learning im großen Maßstab optimiert werden, erheblich steigert, identifizieren wir eine kritische Lücke in der Zuverlässigkeit: Diese Agenten erkennen ihre Denkgrenzen nicht und geben nur selten zu, „ICH WEISS ES NICHT“ (IDK), selbst wenn die Beweislage unzureichend ist oder das Schlussfolgern an seine Grenzen stößt. Der Mangel an Zuverlässigkeit führt oft zu plausiblen, aber unzuverlässigen Antworten, was in vielen realen Szenarien erhebliche Risiken birgt. Zu diesem Zweck schlagen wir Boundary-Aware Policy Optimization (BAPO) vor, ein neuartiges RL-Framework, das entwickelt wurde, um ein zuverlässiges Grenzbewusstsein zu fördern, ohne die Genauigkeit zu beeinträchtigen. BAPO führt zwei Schlüsselkomponenten ein: (i) eine gruppenbasierte, grenzbewusste Belohnung, die eine IDK-Antwort nur dann fördert, wenn das Schlussfolgern an seine Grenzen stößt, und (ii) einen adaptiven Belohnungsmodulator, der diese Belohnung während der frühen Explorationsphase strategisch aussetzt, um zu verhindern, dass das Modell IDK als Abkürzung ausnutzt. Umfangreiche Experimente mit vier Benchmarks zeigen, dass BAPO die Gesamtzuverlässigkeit der agentenbasierten Suche erheblich verbessert.
English
RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.
PDF122January 20, 2026