SAAS: Zelfbewuste Reinforcement Learning voor Beperking van Overmatig Zoeken in Agentisch Zoeken

Samenvatting

Agentische zoekopdrachten stellen LLM's in staat om complexe multi-hop vragen op te lossen door middel van iteratief redeneren en extern zoeken. Ondanks de effectiviteit lijden deze systemen in de praktijk vaak aan een cruciale beperking: agenten slagen er niet in om hun eigen kennisgrenzen te herkennen, waardoor ze blindelings zoekopdrachten starten wanneer interne kennis voldoende is en niet stoppen met zoeken zelfs wanneer er voldoende bewijs is verzameld. Het gebrek aan zelfbewustzijn leidt tot ernstig overmatig zoeken, wat resulteert in aanzienlijke inferentielatentie en onbetaalbare rekenkosten. Daartoe stellen we SAAS voor, een nieuw RL-raamwerk dat is ontworpen om dynamisch zelfbewustzijn te cultiveren dat het zoekgedrag nauwkeurig reguleert zonder de nauwkeurigheid in gevaar te brengen. SAAS introduceert drie belangrijke componenten: (i) een mechanisme voor het modelleren van zoekgrenzen, dat de zoekgrens identificeert onder het evoluerende beleid door het contrasteren van zoek-uitgeschakelde en zoek-ingeschakelde rollouts; (ii) een grensbewuste beloningsmodule, die dit grensbewustzijn vertaalt naar straffen op trajectniveau, waardoor onnodige en overbodige zoekopdrachten worden onderdrukt; en (iii) een fasegewijze optimalisatiestrategie, die een sequentieel curriculum gebruikt om redeneren te prioriteren boven zoekregularisatie, waardoor reward hacking wordt vermeden. Uitgebreide experimenten tonen aan dat SAAS overmatig zoeken aanzienlijk vermindert, terwijl de nauwkeurigheid behouden blijft. Onze code is anoniem uitgebracht op https://github.com/XMUDeepLIT/SAAS.

English

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.