Search-R2: Mejora del Razonamiento Integrado en Búsquedas mediante la Colaboración Actor-Refinador
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
February 3, 2026
Autores: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King
cs.AI
Resumen
El razonamiento integrado con búsqueda permite a los agentes de lenguaje trascender el conocimiento paramétrico estático mediante la consulta activa de fuentes externas. Sin embargo, el entrenamiento de estos agentes mediante aprendizaje por refuerzo se ve obstaculizado por el problema de asignación de crédito a múltiples escalas: los métodos existentes suelen depender de recompensas dispersas a nivel de trayectoria que no logran distinguir entre un razonamiento de alta calidad y conjeturas fortuitas, lo que conduce a comportamientos de búsqueda redundantes o engañosos. Para abordar esto, proponemos Search-R2, un novedoso marco de colaboración Actor-Refinador que mejora el razonamiento mediante intervención dirigida, optimizando ambos componentes conjuntamente durante el entrenamiento. Nuestro enfoque descompone el proceso de generación en un Actor, que produce trayectorias de razonamiento iniciales, y un Meta-Refinador, que diagnostica y repara selectivamente pasos defectuosos mediante un mecanismo de 'corte y regeneración'. Para proporcionar una supervisión de grano fino, introducimos un diseño de recompensa híbrido que combina la corrección del resultado con una recompensa de proceso densa que cuantifica la densidad de información de la evidencia recuperada. Teóricamente, formalizamos la interacción Actor-Refinador como una política de mezcla suavizada, demostrando que la corrección selectiva produce ganancias estrictas de rendimiento sobre líneas base sólidas. Experimentos exhaustivos en varios conjuntos de datos de QA generales y de múltiples saltos demuestran que Search-R2 supera consistentemente a las líneas base sólidas basadas en RAG y RL en diferentes escalas de modelos, logrando una precisión de razonamiento superior con una sobrecarga mínima.
English
Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.