MASPRM: Multi-Agent Systeem Proces Beloningsmodel
MASPRM: Multi-Agent System Process Reward Model
October 28, 2025
Auteurs: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI
Samenvatting
Praktische implementatie van Multi-Agent Systemen (MAS) vereist sterke prestaties tijdens het testen, wat methoden motiveert die de zoektocht tijdens de inferentie begeleiden en rekenkracht selectief inzetten om de kwaliteit te verbeteren. Wij presenteren het Multi-Agent System Process Reward Model (MASPRM). Het wijst per-actie, per-agent waarden toe aan gedeeltelijke inter-agent transcripties en fungeert als een controller tijdens de inferentie. MASPRM wordt getraind op basis van multi-agent Monte Carlo Tree Search (MCTS) rollouts zonder stap-voor-stap menselijke annotaties nodig te hebben, door returns door te geven aan lokale doelen. Tijdens de inferentie begeleidt MASPRM stap-voor-stap beam search en MCTS, waarbij rekenkracht wordt gericht op veelbelovende takken en vroegtijdig wordt gesnoeid. Op GSM8K en MATH verbetert MASPRM-geleide decodering met een outcome reward model (ORM) toegepast op het definitieve antwoord, de exacte match (EM) ten opzichte van een enkele straight-through MAS-passage met respectievelijk +30,7 en +22,9 punten. Een MASPRM getraind op GSM8K transfereert zero-shot naar MATH zonder hertraining, en voegt 8,4 EM-punten toe bij hetzelfde budget. MASPRM is een plug-in waardemodel dat de voortgang per agent inschat en verifier-style decoders complementeert, waardoor betrouwbaardere, rekening houdende met rekenkracht, multi-agent redenering mogelijk wordt. Code: https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time
performance, motivating methods that guide inference-time search and
selectively spend compute to improve quality. We present the Multi-Agent System
Process Reward Model (MASPRM). It assigns per-action, per-agent values to
partial inter-agent transcripts and acts as an inference-time controller.
MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts
without requiring step-level human annotations, by propagating returns to local
targets. At inference, MASPRM guides step-level beam search and MCTS, focusing
computation on promising branches and pruning early. On GSM8K and MATH,
MASPRM-guided decoding with an outcome reward model (ORM) applied to the final
answer, improves exact match (EM) over a single straight-through MAS pass by
+30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers
zero-shot to MATH without retraining, adding 8.4 EM points at the same
budget. MASPRM is a plug-in value model that estimates per-agent progress and
complements verifier-style decoders, enabling more reliable, compute-aware
multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM