SAAS : Apprentissage par renforcement auto-conscient pour l'atténuation de la sur-recherche dans la recherche agentique

Résumé

La recherche agentique permet aux LLMs de résoudre des questions complexes multi-sauts grâce à un raisonnement itératif et une recherche externe. Bien qu'efficaces, ces systèmes souffrent souvent en pratique d'une limitation cruciale : les agents ne parviennent pas à reconnaître leurs propres limites de connaissance, déclenchant aveuglément des recherches alors que les connaissances internes suffisent et n'arrêtant pas la recherche même lorsque des preuves adéquates ont été collectées. Ce manque de conscience de soi conduit à une sur-recherche sévère, entraînant une latence d'inférence substantielle et un coût de calcul prohibitif. À cette fin, nous proposons SAAS, un nouveau cadre d'apprentissage par renforcement conçu pour cultiver une conscience de soi dynamique qui régule précisément le comportement de recherche sans compromettre la précision. SAAS introduit trois composants clés : (i) un mécanisme de modélisation des limites de recherche, qui identifie la limite de recherche sous la politique évolutive en contrastant les trajectoires avec et sans recherche activée ; (ii) un module de récompense sensible aux limites, qui traduit cette conscience des limites en pénalités au niveau des trajectoires, supprimant les recherches inutiles et redondantes ; et (iii) une stratégie d'optimisation par étapes, qui exploite un curriculum séquentiel pour prioriser le raisonnement sur la régularisation de la recherche, évitant ainsi le détournement de récompense. Des expériences approfondies montrent que SAAS réduit considérablement la sur-recherche tout en maintenant la précision. Notre code est publié de manière anonyme à l'adresse https://github.com/XMUDeepLIT/SAAS.

English

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.