SAAS: Aprendizagem por Reforço Autoconsciente para Mitigação de Excesso de Busca em Busca Agentiva

Resumo

A busca agentiva permite que LLMs resolvam perguntas complexas de múltiplas etapas por meio de raciocínio iterativo e busca externa. Apesar da eficácia, esses sistemas frequentemente sofrem de uma limitação crítica na prática: os agentes falham em reconhecer seus próprios limites de conhecimento, acionando buscas cegamente quando o conhecimento interno é suficiente e não conseguindo encerrar a busca mesmo quando evidências adequadas foram coletadas. A falta de autoconsciência leva a uma severa sobrebusca, incorrendo em latência de inferência substancial e custo computacional proibitivo. Para isso, propomos o SAAS, um novo framework de RL projetado para cultivar autoconsciência dinâmica que regula precisamente o comportamento de busca sem comprometer a precisão. O SAAS introduz três componentes principais: (i) um mecanismo de modelagem do limite de busca, que identifica o limite de busca sob a política em evolução ao contrastar rollouts com busca desabilitada e habilitada; (ii) um módulo de recompensa ciente do limite, que traduz essa consciência do limite em penalidades no nível da trajetória, suprimindo buscas desnecessárias e redundantes; e (iii) uma estratégia de otimização por estágios, que utiliza um currículo sequencial para priorizar o raciocínio sobre a regularização da busca, evitando assim a exploração de recompensa. Experimentos extensos demonstram que o SAAS reduz substancialmente a sobrebusca, mantendo a precisão. Nosso código é disponibilizado anonimamente em https://github.com/XMUDeepLIT/SAAS.

English

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.