SAAS: Aprendizaje por Refuerzo Autoconsciente para la Mitigación de Búsqueda Excesiva en Búsqueda Agentiva

Resumen

La búsqueda agentiva permite a los LLMs resolver preguntas complejas de múltiples saltos mediante razonamiento iterativo y búsqueda externa. A pesar de su efectividad, estos sistemas a menudo padecen una limitación crítica en la práctica: los agentes no reconocen sus propios límites de conocimiento, activando búsquedas ciegamente cuando el conocimiento interno es suficiente y fallando en terminar la búsqueda incluso cuando se ha recopilado evidencia adecuada. La falta de autoconciencia conduce a una sobrebúsqueda severa, lo que genera una latencia de inferencia sustancial y un costo computacional prohibitivo. Con este fin, proponemos SAAS, un novedoso marco de RL diseñado para cultivar una autoconciencia dinámica que regule con precisión el comportamiento de búsqueda sin comprometer la precisión. SAAS introduce tres componentes clave: (i) un mecanismo de modelado del límite de búsqueda, que identifica dicho límite bajo la política en evolución contrastando rollouts con búsqueda deshabilitada y habilitada; (ii) un módulo de recompensa consciente del límite, que traduce esta conciencia en penalizaciones a nivel de trayectoria, suprimiendo búsquedas innecesarias y redundantes; y (iii) una estrategia de optimización por etapas, que aprovecha un currículo secuencial para priorizar el razonamiento sobre la regularización de la búsqueda, evitando así el reward hacking. Experimentos extensos demuestran que SAAS reduce sustancialmente la sobrebúsqueda mientras mantiene la precisión. Nuestro código se publica de forma anónima en https://github.com/XMUDeepLIT/SAAS.

English

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.