Search-R2: Verbesserung des suchintegrierten Denkens durch Akteur-Verfeinerer-Kollaboration
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
February 3, 2026
papers.authors: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King
cs.AI
papers.abstract
Suchintegriertes Reasoning ermöglicht es Sprachagenten, statisches parametrisches Wissen zu transzendieren, indem sie aktiv externe Quellen abfragen. Allerdings wird das Training dieser Agenten mittels Reinforcement Learning durch das Problem der Kreditzuweisung auf multiplen Skalen behindert: bestehende Methoden stützen sich typischerweise auf spärliche, trajectorienbezogene Belohnungen, die nicht zwischen hochwertigem Reasoning und glücklichen Vermutungen unterscheiden können, was zu redundanten oder irreführenden Suchverhalten führt. Um dies zu adressieren, schlagen wir Search-R2 vor, ein neuartiges Actor-Refiner-Kollaborationsframework, das das Reasoning durch gezielte Interventionen verbessert, wobei beide Komponenten während des Trainings gemeinsam optimiert werden. Unser Ansatz zerlegt den Generierungsprozess in einen Actor, der initiale Reasoning-Trajektorien erzeugt, und einen Meta-Refiner, der fehlerhafte Schritte selektiv diagnostiziert und über einen 'Cut-and-Regenerate'-Mechanismus repariert. Um feinkörnige Supervision zu ermöglichen, führen wir ein hybrides Belohnungsdesign ein, das Ergebnisrichtigkeit mit einer dichten Prozessbelohnung koppelt, welche die Informationsdichte der abgerufenen Evidenz quantifiziert. Theoretisch formalisieren wir die Actor-Refiner-Interaktion als eine geglättete Mischpolitik und beweisen, dass selektive Korrektur strikte Leistungssteigerungen gegenüber starken Baselines erzielt. Umfangreiche Experimente über verschiedene allgemeine und Multi-Hop-QA-Datensätze zeigen, dass Search-R2 durchgängig starke RAG- und RL-basierte Baselines über verschiedene Modellskalen hinweg übertrifft und eine überlegene Reasoning-Genauigkeit mit minimalem Overhead erreicht.
English
Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.