Prozess-Belohnungs-Agenten zur Steuerung von wissensintensiven Denkprozessen

Zusammenfassung

Das Schließen in wissensintensiven Domänen bleibt eine Herausforderung, da Zwischenschritte oft nicht lokal überprüfbar sind: Im Gegensatz zu Mathematik oder Code kann die Bewertung der Korrektheit eines Schrittes die Synthese von Hinweisen über große externe Wissensquellen hinweg erfordern. Infolgedessen können sich subtile Fehler durch Reasoning-Pfade fortpflanzen und möglicherweise unentdeckt bleiben. Bisherige Arbeiten haben Process Reward Models (PRMs) vorgeschlagen, einschließlich retrieval-augmentierter Varianten, doch diese Methoden arbeiten nachträglich, indem sie abgeschlossene Trajektorien bewerten, was ihre Integration in dynamische Inferenzverfahren verhindert. Hier stellen wir Process Reward Agents (PRA) vor, eine Methode zur Laufzeit, die einer eingefrorenen Policy domainspezifische, Online-Belohnungen schrittweise bereitstellt. Im Gegensatz zu früheren retrieval-augmentierten PRMs ermöglicht PRA suchbasiertes Decoding, um Kandidaten-Trajektorien bei jedem Generierungsschritt zu bewerten und auszusortieren. Experimente auf mehreren Benchmarks für medizinisches Schließen zeigen, dass PRA durchgängig starke Baseline-Methoden übertrifft und mit Qwen3-4B eine Genauigkeit von 80,8 % auf MedQA erreicht, was einen neuen State-of-the-Art im 4B-Maßstab darstellt. Wichtig ist, dass PRA auf ungesehene, eingefrorene Policy-Modelle mit Parametergrößen von 0,5B bis 8B generalisiert und deren Genauigkeit um bis zu 25,7 % steigert, ohne dass Aktualisierungen des Policy-Modells erforderlich sind. Im weiteren Sinne deutet PRA auf ein Paradigma hin, bei dem eingefrorene Reasoner von domainspezifischen Belohnungsmodulen entkoppelt werden, was den Einsatz neuer Architekturen in komplexen Domänen ohne Neutraining ermöglicht.

English

Reasoning in knowledge-intensive domains remains challenging as intermediate steps are often not locally verifiable: unlike math or code, evaluating step correctness may require synthesizing clues across large external knowledge sources. As a result, subtle errors can propagate through reasoning traces, potentially never to be detected. Prior work has proposed process reward models (PRMs), including retrieval-augmented variants, but these methods operate post hoc, scoring completed trajectories, which prevents their integration into dynamic inference procedures. Here, we introduce Process Reward Agents (PRA), a test-time method for providing domain-grounded, online, step-wise rewards to a frozen policy. In contrast to prior retrieval-augmented PRMs, PRA enables search-based decoding to rank and prune candidate trajectories at every generation step. Experiments on multiple medical reasoning benchmarks demonstrate that PRA consistently outperforms strong baselines, achieving 80.8% accuracy on MedQA with Qwen3-4B, a new state of the art at the 4B scale. Importantly, PRA generalizes to unseen frozen policy models ranging from 0.5B to 8B parameters, improving their accuracy by up to 25.7% without any policy model updates. More broadly, PRA suggests a paradigm in which frozen reasoners are decoupled from domain-specific reward modules, allowing the deployment of new backbones in complex domains without retraining.

Prozess-Belohnungs-Agenten zur Steuerung von wissensintensiven Denkprozessen

Process Reward Agents for Steering Knowledge-Intensive Reasoning

Zusammenfassung

Support