Search-R2: 액터-리파이너 협업을 통한 검색 통합 추론 성능 향상
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
February 3, 2026
저자: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King
cs.AI
초록
검색 통합 추론은 언어 에이전트가 외부 소스를 능동적으로 질의함으로써 정적 매개변수 지식을 초월할 수 있게 합니다. 그러나 강화 학습을 통한 이러한 에이전트의 훈련은 다중 규모 신용 할당 문제로 인해 방해받습니다: 기존 방법은 일반적으로 희소한 궤적 수준의 보상에 의존하여 고품질 추론과 우연한 추측을 구분하지 못하므로 중복적이거나 오해의 소지가 있는 검색 행동으로 이어집니다. 이를 해결하기 위해 우리는 훈련 중 두 구성 요소가 공동으로 최적화되는 표적 중재를 통해 추론을 향상시키는 새로운 액터-리파이너 협업 프레임워크인 Search-R2를 제안합니다. 우리의 접근 방식은 생성 과정을 초기 추론 궤적을 생성하는 액터와 '절단-재생성' 메커니즘을 통해 결함이 있는 단계를 선택적으로 진단 및 수리하는 메타-리파이너로 분해합니다. 세밀한 지도를 제공하기 위해 우리는 결과 정확도와 검색된 증거의 정보 밀도를 정량화하는 밀집 과정 보상을 결합한 하이브리드 보상 설계를 도입합니다. 이론적으로는 액터-리파이너 상호작용을 평활화된 혼합 정책으로 형식화하여 선택적 수정이 강력한 기준선보다 엄격한 성능 향상을 가져옴을 입증합니다. 다양한 일반 및 다중 홉 QA 데이터셋에 대한 광범위한 실험을 통해 Search-R2가 모델 규모에 관계없이 강력한 RAG 및 RL 기반 기준선을 일관되게 능가하며, 최소의 오버헤드로 우수한 추론 정확도를 달성함을 입증합니다.
English
Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.