BAPO: Ottimizzazione della Politica Consapevole dei Limiti per una Ricerca Agente Affidabile

Abstract

La ricerca agentiva basata su RL consente ai LLM di risolvere domande complesse mediante pianificazione dinamica e ricerca esterna. Sebbene questo approccio migliori significativamente l'accuratezza con politiche agenti ottimizzate tramite apprendimento per rinforzo su larga scala, identifichiamo un gap critico nell'affidabilità: questi agenti non riconoscono i propri limiti di ragionamento e raramente ammettono ``NON SO'' (IDK) anche quando le prove sono insufficienti o il ragionamento raggiunge il suo limite. La mancanza di affidabilità spesso porta a risposte plausibili ma inaffidabili, introducendo rischi significativi in molti scenari reali. A tal fine, proponiamo l'Ottimizzazione della Politica Consapevole del Limite (BAPO), un innovativo framework RL progettato per coltivare una consapevolezza affidabile dei limiti senza compromettere l'accuratezza. BAPO introduce due componenti chiave: (i) una ricompensa consapevole del limite basata su gruppo che incoraggia una risposta IDK solo quando il ragionamento raggiunge il suo limite, e (ii) un modulatore di ricompensa adattivo che sospende strategicamente questa ricompensa durante l'esplorazione iniziale, prevenendo lo sfruttamento di IDK come scorciatoia da parte del modello. Esperimenti estensivi su quattro benchmark dimostrano che BAPO migliora sostanzialmente l'affidabilità complessiva della ricerca agentiva.

English

RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.

BAPO: Ottimizzazione della Politica Consapevole dei Limiti per una Ricerca Agente Affidabile

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

Abstract

Support