ChatPaper.aiChatPaper

Search-R2 : Amélioration du raisonnement intégré à la recherche via une collaboration Acteur-Raffineur

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

February 3, 2026
papers.authors: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King
cs.AI

papers.abstract

Le raisonnement intégré à la recherche permet aux agents linguistiques de transcender les connaissances paramétriques statiques en interrogeant activement des sources externes. Cependant, l'entraînement de ces agents par apprentissage par renforcement est entravé par le problème d'attribution de crédit multi-échelle : les méthodes existantes reposent généralement sur des récompenses éparses au niveau de la trajectoire, qui ne parviennent pas à distinguer un raisonnement de haute qualité d'une conjecture fortuite, conduisant à des comportements de recherche redondants ou trompeurs. Pour y remédier, nous proposons Search-R2, un nouveau cadre de collaboration Acteur-Raffineur qui améliore le raisonnement par une intervention ciblée, les deux composants étant optimisés conjointement pendant l'entraînement. Notre approche décompose le processus de génération en un Acteur, qui produit des trajectoires de raisonnement initiales, et un Méta-Raffineur, qui diagnostique et corrige sélectivement les étapes défectueuses via un mécanisme de « couper-et-regénérer ». Pour fournir un suivi granulaire, nous introduisons une conception de récompense hybride qui couple l'exactitude du résultat avec une récompense de processus dense quantifiant la densité informationnelle des preuves récupérées. Théoriquement, nous formalisons l'interaction Acteur-Raffineur comme une politique de mélissage lissée, démontrant que la correction sélective procure des gains de performance stricts par rapport aux bases de référence solides. Des expériences approfondies sur divers ensembles de données de questions-réponses générales et à sauts multiples montrent que Search-R2 surpasse constamment les bases de référence solides basées sur le RAG et l'apprentissage par renforcement, quelle que soit l'échelle des modèles, atteignant une précision de raisonnement supérieure avec une surcharge minimale.
English
Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.
PDF51February 5, 2026