Search-R2: Miglioramento del Ragionamento Integrato nella Ricerca tramite Collaborazione Attore-Raffinatore

Abstract

Il ragionamento integrato alla ricerca consente agli agenti linguistici di trascendere la conoscenza parametrica statica interrogando attivamente fonti esterne. Tuttavia, l'addestramento di questi agenti tramite apprendimento per rinforzo è ostacolato dal problema di assegnazione del credito multi-scala: i metodi esistenti si basano tipicamente su ricompense sparse a livello di traiettoria che non distinguono tra ragionamento di alta qualità e ipotesi fortuite, portando a comportamenti di ricerca ridondanti o fuorvianti. Per affrontare ciò, proponiamo Search-R2, un innovativo framework di collaborazione Attore-Affinatore che migliora il ragionamento attraverso un'intervento mirato, con entrambi i componenti ottimizzati congiuntamente durante l'addestramento. Il nostro approccio scompone il processo di generazione in un Attore, che produce traiettorie di ragionamento iniziali, e un Meta-Affinatore, che diagnostica selettivamente e ripara i passaggi difettosi tramite un meccanismo di "taglia e rigenera". Per fornire una supervisione granulare, introduciamo un design ibrido delle ricompense che accoppia la correttezza del risultato con una ricompensa densa del processo che quantifica la densità informativa delle evidenze recuperate. Teoricamente, formalizziamo l'interazione Attore-Affinatore come una politica di miscela regolarizzata, dimostrando che la correzione selettiva produce guadagni prestazionali rigorosi rispetto a baseline solide. Esperimenti estesi su vari dataset di QA generali e multi-hop dimostrano che Search-R2 supera costantemente le solide baseline basate su RAG e RL attraverso diverse scale di modelli, raggiungendo un'accuratezza di ragionamento superiore con overhead minimo.

English

Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.

Search-R2: Miglioramento del Ragionamento Integrato nella Ricerca tramite Collaborazione Attore-Raffinatore

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

Abstract

Support