ChatPaper.aiChatPaper

MASPRM: Modello di Ricompensa dei Processi con Sistema Multi-Agente

MASPRM: Multi-Agent System Process Reward Model

October 28, 2025
Autori: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI

Abstract

L'implementazione pratica di Sistemi Multi-Agente (MAS) richiede prestazioni solide durante il test, motivando metodi che guidano la ricerca in fase di inferenza e spendono selettivamente risorse computazionali per migliorare la qualità. Presentiamo il Multi-Agent System Process Reward Model (MASPRM). Esso assegna valori per azione e per agente a trascrizioni parziali delle interazioni tra agenti e funge da controllore in fase di inferenza. MASPRM viene addestrato a partire da rollout di Monte Carlo Tree Search (MCTS) multi-agente senza richiedere annotazioni umane a livello di singolo passo, propagando i ritorni verso target locali. In fase di inferenza, MASPRM guida la beam search a livello di passo e il MCTS, concentrando il calcolo sui rami promettenti e potando precocemente. Su GSM8K e MATH, il decoding guidato da MASPRM con un outcome reward model (ORM) applicato alla risposta finale, migliora l'Exact Match (EM) rispetto a un singolo passaggio diretto di un MAS di +30.7 e +22.9 punti, rispettivamente. Un MASPRM addestrato su GSM8K si trasferisce zero-shot su MATH senza riaddestramento, aggiungendo 8.4 punti EM a parità di budget computazionale. MASPRM è un modello di valore plug-in che stima il progresso per agente e complementa decoder di tipo verificatore, abilitando un ragionamento multi-agente più affidabile e consapevole del costo computazionale. Codice: https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM
PDF121December 2, 2025