BAPO: Grensbewust Beleidsoptimalisatie voor Betrouwbare Agentgebaseerde Zoekacties

Samenvatting

Op RL gebaseerd agent-gericht zoeken stelt LLM's in staat om complexe vragen op te lossen via dynamische planning en extern zoeken. Hoewel deze aanpak de nauwkeurigheid aanzienlijk verbetert met agent-beleid geoptimaliseerd via grootschalige reinforcement learning, identificeren we een kritieke kloof in betrouwbaarheid: deze agenten herkennen hun redeneergrenzen niet en geven zelden toe ``IK WEET HET NIET'' (IDK), zelfs wanneer bewijs ontoereikend is of de redenering haar limiet bereikt. Dit gebrek aan betrouwbaarheid leidt vaak tot plausibele maar onbetrouwbare antwoorden, wat aanzienlijke risico's met zich meebrengt in veel realistische scenario's. Daarom stellen wij Boundary-Aware Policy Optimization (BAPO) voor, een nieuw RL-raamwerk ontworpen om betrouwbaar grenswaarnemingsvermogen te ontwikkelen zonder in te boeten aan nauwkeurigheid. BAPO introduceert twee kernelementen: (i) een op groepen gebaseerde beloning die grenswaarneming aanmoedigt, waarbij een IDK-reactie alleen wordt gestimuleerd wanneer de redenering haar limiet bereikt, en (ii) een adaptieve beloningsmodulator die deze beloning strategisch opschort tijdens vroege verkenning, om te voorkomen dat het model IDK als een kortsluiting gaat exploiteren. Uitgebreide experimenten op vier benchmarks tonen aan dat BAPO de algehele betrouwbaarheid van agent-gericht zoeken substantieel verbetert.

English

RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.

BAPO: Grensbewust Beleidsoptimalisatie voor Betrouwbare Agentgebaseerde Zoekacties

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

Samenvatting

Support