MASPRM: Multi-Agenten-System-Prozessbelohnungsmodell

papers.abstract

Die praktische Anwendung von Multi-Agenten-Systemen (MAS) erfordert eine hohe Leistungsfähigkeit zur Testzeit, was Methoden motiviert, die die Suche zur Inferenzzeit steuern und Rechenressourcen selektiv einsetzen, um die Qualität zu verbessern. Wir stellen das Multi-Agenten-System-Prozess-Belohnungsmodell (MASPRM) vor. Dieses weist partiellen Transkripten der Interaktion zwischen Agenten pro Aktion und pro Agent Werte zu und fungiert als Controller zur Inferenzzeit. MASPRM wird aus Multi-Agenten-Monte-Carlo-Baumsuche (MCTS)-Rollouts trainiert, ohne dass schrittweise menschliche Annotationen erforderlich sind, indem Returns zu lokalen Zielen propagiert werden. Zur Inferenzzeit steuert MASPRM die schrittweise Strahlensuche und MCTS, konzentriert die Berechnung auf vielversprechende Zweige und führt frühzeitiges Pruning durch. Auf GSM8K und MATH verbessert die MASPRM-geführte Dekodierung mit einem Ergebnis-Belohnungsmodell (ORM), das auf die endgültige Antwort angewendet wird, die exakte Übereinstimmung (EM) gegenüber einem einzelnen direkten MAS-Durchlauf um +30,7 bzw. +22,9 Punkte. Ein auf GSM8K trainiertes MASPRM überträgt sich ohne Neutraining Zero-Shot auf MATH und fügt bei gleichem Budget 8,4 EM-Punkte hinzu. MASPRM ist ein Plug-in-Wertmodell, das den Fortschritt pro Agent schätzt und Verifikator-artige Dekodierer ergänzt, um zuverlässigeres, rechenbewusstes Multi-Agenten-Reasoning zu ermöglichen. Code: https://github.com/milad1378yz/MASPRM

English

Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM

MASPRM: Multi-Agenten-System-Prozessbelohnungsmodell

MASPRM: Multi-Agent System Process Reward Model

papers.abstract

Support