MASPRM: Multi-Agent Systeem Proces Beloningsmodel

Samenvatting

Praktische implementatie van Multi-Agent Systemen (MAS) vereist sterke prestaties tijdens het testen, wat methoden motiveert die de zoektocht tijdens de inferentie begeleiden en rekenkracht selectief inzetten om de kwaliteit te verbeteren. Wij presenteren het Multi-Agent System Process Reward Model (MASPRM). Het wijst per-actie, per-agent waarden toe aan gedeeltelijke inter-agent transcripties en fungeert als een controller tijdens de inferentie. MASPRM wordt getraind op basis van multi-agent Monte Carlo Tree Search (MCTS) rollouts zonder stap-voor-stap menselijke annotaties nodig te hebben, door returns door te geven aan lokale doelen. Tijdens de inferentie begeleidt MASPRM stap-voor-stap beam search en MCTS, waarbij rekenkracht wordt gericht op veelbelovende takken en vroegtijdig wordt gesnoeid. Op GSM8K en MATH verbetert MASPRM-geleide decodering met een outcome reward model (ORM) toegepast op het definitieve antwoord, de exacte match (EM) ten opzichte van een enkele straight-through MAS-passage met respectievelijk +30,7 en +22,9 punten. Een MASPRM getraind op GSM8K transfereert zero-shot naar MATH zonder hertraining, en voegt 8,4 EM-punten toe bij hetzelfde budget. MASPRM is een plug-in waardemodel dat de voortgang per agent inschat en verifier-style decoders complementeert, waardoor betrouwbaardere, rekening houdende met rekenkracht, multi-agent redenering mogelijk wordt. Code: https://github.com/milad1378yz/MASPRM

English

Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM

MASPRM: Multi-Agent Systeem Proces Beloningsmodel

MASPRM: Multi-Agent System Process Reward Model

Samenvatting

Support