Agenti di Ricompensa di Processo per Guidare il Ragionamento ad Alta Intensità di Conoscenza

Abstract

Il ragionamento in domini ad alta intensità di conoscenza rimane impegnativo poiché i passaggi intermedi spesso non sono verificabili localmente: a differenza della matematica o del codice, la valutazione della correttezza di un passaggio può richiedere la sintesi di indizi attraverso ampie fonti di conoscenza esterne. Di conseguenza, errori sottili possono propagarsi attraverso le tracce di ragionamento, rischiando di non essere mai rilevati. I lavori precedenti hanno proposto modelli di ricompensa del processo (PRM), inclusi varianti potenziate dal retrieval, ma questi metodi operano a posteriori, valutando traiettorie completate, il che ne impedisce l'integrazione in procedure di inferenza dinamiche. Qui introduciamo Process Reward Agents (PRA), un metodo applicato al tempo di test per fornire ricompense passo-passo, ancorate al dominio e in tempo reale, a una policy congelata. A differenza dei PRM potenziati dal retrieval precedenti, PRA consente alla decodifica basata sulla ricerca di classificare e potare le traiettorie candidate a ogni passaggio di generazione. Esperimenti su molteplici benchmark di ragionamento medico dimostrano che PRA supera costantemente baseline solide, raggiungendo un'accuratezza dell'80,8% su MedQA con Qwen3-4B, un nuovo stato dell'arte alla scala dei 4B. È importante sottolineare che PRA generalizza a modelli di policy congelati non visti, che vanno da 0,5B a 8B di parametri, migliorando la loro accuratezza fino al 25,7% senza alcun aggiornamento del modello di policy. Più in generale, PRA suggerisce un paradigma in cui i sistemi di ragionamento congelati sono disaccoppiati da moduli di ricompensa specifici del dominio, consentendo l'implementazione di nuovi modelli di base in domini complessi senza riaddestramento.

English

Reasoning in knowledge-intensive domains remains challenging as intermediate steps are often not locally verifiable: unlike math or code, evaluating step correctness may require synthesizing clues across large external knowledge sources. As a result, subtle errors can propagate through reasoning traces, potentially never to be detected. Prior work has proposed process reward models (PRMs), including retrieval-augmented variants, but these methods operate post hoc, scoring completed trajectories, which prevents their integration into dynamic inference procedures. Here, we introduce Process Reward Agents (PRA), a test-time method for providing domain-grounded, online, step-wise rewards to a frozen policy. In contrast to prior retrieval-augmented PRMs, PRA enables search-based decoding to rank and prune candidate trajectories at every generation step. Experiments on multiple medical reasoning benchmarks demonstrate that PRA consistently outperforms strong baselines, achieving 80.8% accuracy on MedQA with Qwen3-4B, a new state of the art at the 4B scale. Importantly, PRA generalizes to unseen frozen policy models ranging from 0.5B to 8B parameters, improving their accuracy by up to 25.7% without any policy model updates. More broadly, PRA suggests a paradigm in which frozen reasoners are decoupled from domain-specific reward modules, allowing the deployment of new backbones in complex domains without retraining.

Agenti di Ricompensa di Processo per Guidare il Ragionamento ad Alta Intensità di Conoscenza

Process Reward Agents for Steering Knowledge-Intensive Reasoning

Abstract

Support