ChatPaper.aiChatPaper

SAAS: 에이전틱 검색에서 과잉 검색 완화를 위한 자기 인식 강화 학습

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

May 28, 2026
저자: Yunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su
cs.AI

초록

에이전틱 검색(agentic search)은 LLM이 반복적 추론과 외부 검색을 통해 복잡한 다중 홉(multi-hop) 문제를 해결할 수 있도록 한다. 효과적임에도 불구하고, 이러한 시스템은 실제 사용에서 중요한 한계를 보인다: 에이전트가 자신의 지식 경계를 인식하지 못하여 내부 지식만으로 충분할 때도 무분별하게 검색을 실행하고, 충분한 증거가 수집되었음에도 검색을 종료하지 못한다. 이러한 자기 인식의 부재는 심각한 과도 검색(over-search)을 초래하여 상당한 추론 지연 시간과 엄청난 계산 비용을 발생시킨다. 이를 위해 우리는 정확성을 저하시키지 않으면서 검색 행동을 정밀하게 조절하는 동적 자기 인식을 함양하도록 설계된 새로운 강화 학습 프레임워크인 SAAS를 제안한다. SAAS는 세 가지 핵심 구성 요소를 도입한다: (i) 검색 비활성화 및 검색 활성화 롤아웃을 대조하여 진화하는 정책 하에서 검색 경계를 식별하는 검색 경계 모델링 메커니즘, (ii) 이 경계 인식을 궤적 수준의 패널티로 변환하여 불필요하고 중복된 검색을 억제하는 경계 인식 보상 모듈, (iii) 순차적 커리큘럼을 활용하여 검색 정규화보다 추론을 우선시함으로써 보상 해킹을 방지하는 단계별 최적화 전략. 광범위한 실험을 통해 SAAS가 정확성을 유지하면서 과도 검색을 크게 줄임을 입증한다. 우리의 코드는 https://github.com/XMUDeepLIT/SAAS에서 익명으로 공개되었다.
English
Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe over-search, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.