Search-R2: Verbetering van zoek-geïntegreerd redeneren via actor-verfijner samenwerking

Samenvatting

Zoekgeïntegreerd redeneren stelt taalmodelagenten in staat om statische parametrische kennis te overstijgen door actief externe bronnen te bevragen. De training van dergelijke agenten via reinforcement learning wordt echter belemmerd door het probleem van krediettoewijzing op meerdere schalen: bestaande methodes vertrouwen doorgaans op schaarse, trajectgebaseerde beloningen die geen onderscheid maken tussen hoogwaardig redeneren en toevallige correcte gokken, wat leidt tot redundante of misleidende zoekgedragingen. Om dit aan te pakken, stellen wij Search-R2 voor, een nieuw Actor-Refiner samenwerkingsraamwerk dat het redeneren verbetert via gerichte interventie, waarbij beide componenten gezamenlijk worden geoptimaliseerd tijdens de training. Onze aanpak deelt het generatieproces op in een Actor, die initiële redeneertrajecten produceert, en een Meta-Refiner, die selectief defecte stappen diagnosticeert en repareert via een 'knippen en opnieuw genereren'-mechanisme. Voor fijnmazige supervisie introduceren wij een hybride beloningsontwerp dat uitkomstcorrectheid koppelt aan een dicht procesbeloning die de informatiedichtheid van opgehaald bewijsmateriaal kwantificeert. Theoretisch formaliseren wij de Actor-Refiner interactie als een gladgemaakt mengselbeleid, waarbij wordt bewezen dat selectieve correctie strikte prestatieverbeteringen oplevert ten opzichte van sterke baseline-methoden. Uitgebreide experimenten op diverse algemene en multi-hop vraag-antwoorddatasets tonen aan dat Search-R2 consistent sterke RAG- en RL-gebaseerde baseline-methoden overtreft across verschillende modelschalen, en superieure redeneernauwkeurigheid bereikt met minimale overhead.

English

Search-integrated reasoning enables language agents to transcend static parametric knowledge by actively querying external sources. However, training these agents via reinforcement learning is hindered by the multi-scale credit assignment problem: existing methods typically rely on sparse, trajectory-level rewards that fail to distinguish between high-quality reasoning and fortuitous guesses, leading to redundant or misleading search behaviors. To address this, we propose Search-R2, a novel Actor-Refiner collaboration framework that enhances reasoning through targeted intervention, with both components jointly optimized during training. Our approach decomposes the generation process into an Actor, which produces initial reasoning trajectories, and a Meta-Refiner, which selectively diagnoses and repairs flawed steps via a 'cut-and-regenerate' mechanism. To provide fine-grained supervision, we introduce a hybrid reward design that couples outcome correctness with a dense process reward quantifying the information density of retrieved evidence. Theoretically, we formalize the Actor-Refiner interaction as a smoothed mixture policy, proving that selective correction yields strict performance gains over strong baselines. Extensive experiments across various general and multi-hop QA datasets demonstrate that Search-R2 consistently outperforms strong RAG and RL-based baselines across model scales, achieving superior reasoning accuracy with minimal overhead.

Search-R2: Verbetering van zoek-geïntegreerd redeneren via actor-verfijner samenwerking

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

Samenvatting

Support