Search-R2: Aprimorando o Raciocínio Integrado à Pesquisa por meio da Colaboração Ator-Refinador

Resumo

A raciocínio integrado à busca permite que agentes de linguagem transcendam o conhecimento paramétrico estático ao consultar ativamente fontes externas. No entanto, o treinamento desses agentes via aprendizado por reforço é dificultado pelo problema de atribuição de crédito em múltiplas escalas: os métodos existentes geralmente dependem de recompensas esparsas a nível de trajetória que não conseguem distinguir entre raciocínio de alta qualidade e palpites fortuitos, levando a comportamentos de busca redundantes ou enganosos. Para resolver isso, propomos o Search-R2, uma nova estrutura de colaboração Actor-Refiner que aprimora o raciocínio por meio de intervenção direcionada, com ambos os componentes otimizados conjuntamente durante o treinamento. Nossa abordagem decompõe o processo de geração em um Ator, que produz trajetórias de raciocínio iniciais, e um Meta-Refiner, que diagnostica e repara seletivamente etapas falhas por meio de um mecanismo de 'cortar e regenerar'. Para fornecer supervisão de granularidade fina, introduzimos um projeto de recompensa híbrida que acopla a correção do resultado com uma recompensa de processo densa que quantifica a densidade informacional da evidência recuperada. Teoricamente, formalizamos a interação Actor-Refiner como uma política de mistura suavizada, provando que a correção seletiva produz ganhos rigorosos de desempenho em relação às bases de comparação fortes. Experimentos extensos em vários conjuntos de dados de QA gerais e de múltiplos saltos demonstram que o Search-R2 supera consistentemente as bases fortes baseadas em RAG e RL em várias escalas de modelo, alcançando precisão de raciocínio superior com sobrecarga mínima.

English

Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.

Search-R2: Aprimorando o Raciocínio Integrado à Pesquisa por meio da Colaboração Ator-Refinador

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

Resumo

Support