SAAS: Selbstreflexives Reinforcement Learning zur Minderung von Übersuche in agentischer Suche

Zusammenfassung

Agentische Suche ermöglicht es LLMs, komplexe Multi-Hop-Fragen durch iteratives Denken und externe Suche zu lösen. Trotz ihrer Wirksamkeit leiden diese Systeme in der Praxis häufig unter einer entscheidenden Einschränkung: Agenten erkennen ihre eigenen Wissensgrenzen nicht, lösen blind Suchvorgänge aus, wenn internes Wissen ausreicht, und beenden die Suche nicht, selbst wenn ausreichende Belege gesammelt wurden. Der Mangel an Selbstbewusstsein führt zu schwerwiegender Übersuche, was zu erheblicher Inferenzlatenz und untragbaren Rechenkosten führt. Zu diesem Zweck schlagen wir SAAS vor, ein neuartiges RL-Framework, das darauf abzielt, dynamisches Selbstbewusstsein zu kultivieren, das das Suchverhalten präzise reguliert, ohne die Genauigkeit zu beeinträchtigen. SAAS führt drei Schlüsselkomponenten ein: (i) einen Mechanismus zur Modellierung der Suchgrenze, der die Suchgrenze unter der sich entwickelnden Policy identifiziert, indem suchdeaktivierte und suchaktivierte Rollouts verglichen werden; (ii) ein grenzbewusstes Belohnungsmodul, das dieses Grenzbewusstsein in trajektorienbasierte Strafen übersetzt und unnötige sowie redundante Suchvorgänge unterdrückt; und (iii) eine stufenweise Optimierungsstrategie, die einen sequentiellen Lehrplan nutzt, um das Denken vor der Suchregularisierung zu priorisieren und so Reward-Hacking zu vermeiden. Umfangreiche Experimente zeigen, dass SAAS die Übersuche erheblich reduziert, während die Genauigkeit erhalten bleibt. Unser Code ist anonym unter https://github.com/XMUDeepLIT/SAAS veröffentlicht.

English

Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.