ChatPaper.aiChatPaper

MASPRM : Modèle de Récompense de Processus par Système Multi-Agents

MASPRM: Multi-Agent System Process Reward Model

October 28, 2025
papers.authors: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI

papers.abstract

Le déploiement pratique des systèmes multi-agents (SMA) nécessite des performances solides lors des tests, ce qui motive le développement de méthodes guidant la recherche lors de l'inférence et dépensant sélectivement les ressources de calcul pour améliorer la qualité. Nous présentons le Modèle de Récompense de Processus pour Systèmes Multi-Agents (MASPRM). Il attribue des valeurs par action et par agent à des transcriptions inter-agents partielles et agit comme un contrôleur lors de l'inférence. MASPRM est entraîné à partir de déploiements par Monte Carlo Tree Search (MCTS) multi-agents sans nécessiter d'annotations humaines au niveau des étapes, en propageant les retours vers des cibles locales. Lors de l'inférence, MASPRM guide la recherche en faisceau (beam search) et le MCTS au niveau des étapes, en concentrant le calcul sur les branches prometteuses et en élaguant précocement. Sur GSM8K et MATH, le décodage guidé par MASPRM avec un modèle de récompense de résultat (ORM) appliqué à la réponse finale améliore la correspondance exacte (EM) par rapport à une seule passe MAS directe de +30,7 et +22,9 points respectivement. Un MASPRM entraîné sur GSM8K se transfère sans adaptation (zero-shot) à MATH sans nouvel entraînement, ajoutant 8,4 points EM pour le même budget. MASPRM est un modèle de valeur plug-in qui estime la progression par agent et complète les décodeurs de type vérificateur, permettant un raisonnement multi-agent plus fiable et conscient des contraintes de calcul. Code : https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM
PDF121December 2, 2025