BAPO: Otimização de Políticas com Consciência de Limites para Busca Agente Confiável

Resumo

A busca baseada em RL (aprendizagem por reforço) permite que LLMs resolvam questões complexas através de planeamento dinâmico e busca externa. Embora esta abordagem aumente significativamente a precisão com políticas de agente otimizadas via aprendizagem por reforço em larga escala, identificamos uma lacuna crítica na confiabilidade: estes agentes não reconhecem os seus limites de raciocínio e raramente admitem ``NÃO SEI'' (IDK), mesmo quando as evidências são insuficientes ou o raciocínio atinge o seu limite. A falta de confiabilidade frequentemente leva a respostas plausíveis, mas não confiáveis, introduzindo riscos significativos em muitos cenários do mundo real. Para tal, propomos a Otimização de Políticas com Consciência de Limites (BAPO), uma nova estrutura de RL concebida para cultivar uma consciência de limites confiável sem comprometer a precisão. A BAPO introduz dois componentes principais: (i) uma recompensa baseada em grupos com consciência de limites que incentiva uma resposta IDK apenas quando o raciocínio atinge o seu limite, e (ii) um modulador de recompensa adaptativo que suspende estrategicamente esta recompensa durante a exploração inicial, impedindo que o modelo explore o IDK como um atalho. Experiências extensas em quatro benchmarks demonstram que a BAPO aumenta substancialmente a confiabilidade geral da busca agentiva.

English

RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.

BAPO: Otimização de Políticas com Consciência de Limites para Busca Agente Confiável

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

Resumo

Support