Search-R2: Улучшение интегрированного с поиском рассуждения через сотрудничество актера и уточнителя
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration
February 3, 2026
Авторы: Bowei He, Minda Hu, Zenan Xu, Hongru Wang, Licheng Zong, Yankai Chen, Chen Ma, Xue Liu, Pluto Zhou, Irwin King
cs.AI
Аннотация
Поисково-интегрированное рассуждение позволяет языковым агентам выходить за пределы статического параметрического знания, активно запрашивая внешние источники. Однако обучение таких агентов с помощью обучения с подкреплением затруднено проблемой распределения заслуг на разных масштабах: существующие методы обычно полагаются на разреженные, траекторные вознаграждения, которые не позволяют отличить качественное рассуждение от случайных догадок, что приводит к избыточному или вводящему в заблуждение поисковому поведению. Для решения этой проблемы мы предлагаем Search-R2 — новую фреймворк-коллаборацию «Актор-Уточнитель», которая улучшает рассуждение за счет целенаправленного вмешательства, причем оба компонента совместно оптимизируются в процессе обучения. Наш подход декомпозирует процесс генерации на Актора, который создает начальные траектории рассуждений, и Мета-Уточнителя, который выборочно диагностирует и исправляет ошибочные шаги с помощью механизма «вырезать и перегенерировать». Для обеспечения детального контроля мы вводим гибридный дизайн вознаграждения, который сочетает правильность результата с плотным процессуальным вознаграждением, количественно оценивающим информационную плотность извлеченных свидетельств. Теоретически мы формализуем взаимодействие Актора и Уточнителя как сглаженную смешанную политику, доказывая, что выборочная коррекция дает строгое улучшение производительности по сравнению с сильными базовыми методами. Многочисленные эксперименты на различных наборах данных для общего и многошагового вопросно-ответного поиска демонстрируют, что Search-R2 стабильно превосходит сильные базовые методы на основе RAG и обучения с подкреплением для моделей разных масштабов, достигая превосходной точности рассуждений при минимальных накладных расходах.
English
Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.