ChatPaper.aiChatPaper

BAPO: Optimización de Políticas con Conciencia del Límite para una Búsqueda Agéntica Confiable

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

January 16, 2026
Autores: Shiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su
cs.AI

Resumen

La búsqueda basada en RL (aprendizaje por refuerzo) permite a los LLMs resolver preguntas complejas mediante planificación dinámica y búsqueda externa. Si bien este enfoque mejora significativamente la precisión con políticas de agente optimizadas mediante aprendizaje por refuerzo a gran escala, identificamos una brecha crítica en la confiabilidad: estos agentes no reconocen sus límites de razonamiento y rara vez admiten ``NO LO SÉ'' (IDK), incluso cuando la evidencia es insuficiente o el razonamiento alcanza su límite. La falta de confiabilidad a menudo conduce a respuestas plausibles pero no fiables, introduciendo riesgos significativos en muchos escenarios del mundo real. Para ello, proponemos la Optimización de Políticas Consciente de los Límites (BAPO), un novedoso marco de RL diseñado para cultivar una conciencia confiable de los límites sin comprometer la precisión. BAPO introduce dos componentes clave: (i) una recompensa grupal consciente de los límites que fomenta una respuesta IDK solo cuando el razonamiento alcanza su límite, y (ii) un modulador de recompensa adaptativo que suspende estratégicamente esta recompensa durante la exploración temprana, evitando que el modelo explote IDK como un atajo. Experimentos exhaustivos en cuatro benchmarks demuestran que BAPO mejora sustancialmente la confiabilidad general de la búsqueda agéntica.
English
RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.
PDF122January 20, 2026