MASPRM: Multi-Agenten-System-Prozessbelohnungsmodell
MASPRM: Multi-Agent System Process Reward Model
October 28, 2025
papers.authors: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI
papers.abstract
Die praktische Anwendung von Multi-Agenten-Systemen (MAS) erfordert eine hohe Leistungsfähigkeit zur Testzeit, was Methoden motiviert, die die Suche zur Inferenzzeit steuern und Rechenressourcen selektiv einsetzen, um die Qualität zu verbessern. Wir stellen das Multi-Agenten-System-Prozess-Belohnungsmodell (MASPRM) vor. Dieses weist partiellen Transkripten der Interaktion zwischen Agenten pro Aktion und pro Agent Werte zu und fungiert als Controller zur Inferenzzeit. MASPRM wird aus Multi-Agenten-Monte-Carlo-Baumsuche (MCTS)-Rollouts trainiert, ohne dass schrittweise menschliche Annotationen erforderlich sind, indem Returns zu lokalen Zielen propagiert werden. Zur Inferenzzeit steuert MASPRM die schrittweise Strahlensuche und MCTS, konzentriert die Berechnung auf vielversprechende Zweige und führt frühzeitiges Pruning durch. Auf GSM8K und MATH verbessert die MASPRM-geführte Dekodierung mit einem Ergebnis-Belohnungsmodell (ORM), das auf die endgültige Antwort angewendet wird, die exakte Übereinstimmung (EM) gegenüber einem einzelnen direkten MAS-Durchlauf um +30,7 bzw. +22,9 Punkte. Ein auf GSM8K trainiertes MASPRM überträgt sich ohne Neutraining Zero-Shot auf MATH und fügt bei gleichem Budget 8,4 EM-Punkte hinzu. MASPRM ist ein Plug-in-Wertmodell, das den Fortschritt pro Agent schätzt und Verifikator-artige Dekodierer ergänzt, um zuverlässigeres, rechenbewusstes Multi-Agenten-Reasoning zu ermöglichen. Code: https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time
performance, motivating methods that guide inference-time search and
selectively spend compute to improve quality. We present the Multi-Agent System
Process Reward Model (MASPRM). It assigns per-action, per-agent values to
partial inter-agent transcripts and acts as an inference-time controller.
MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts
without requiring step-level human annotations, by propagating returns to local
targets. At inference, MASPRM guides step-level beam search and MCTS, focusing
computation on promising branches and pruning early. On GSM8K and MATH,
MASPRM-guided decoding with an outcome reward model (ORM) applied to the final
answer, improves exact match (EM) over a single straight-through MAS pass by
+30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers
zero-shot to MATH without retraining, adding 8.4 EM points at the same
budget. MASPRM is a plug-in value model that estimates per-agent progress and
complements verifier-style decoders, enabling more reliable, compute-aware
multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM