MASPRM: Modelo de Recompensa de Procesos para Sistemas Multiagente
MASPRM: Multi-Agent System Process Reward Model
October 28, 2025
Autores: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI
Resumen
La implementación práctica de Sistemas Multi-Agente (MAS) exige un rendimiento sólido durante las pruebas, lo que motiva métodos que guíen la búsqueda en la inferencia y gasten computación de forma selectiva para mejorar la calidad. Presentamos el Modelo de Recompensa de Procesos para Sistemas Multi-Agente (MASPRM). Este asigna valores por acción y por agente a transcripciones parciales entre agentes y actúa como un controlador durante la inferencia. MASPRM se entrena a partir de desarrollos de Búsqueda de Árbol de Monte Carlo (MCTS) multi-agente sin necesidad de anotaciones humanas a nivel de paso, propagando las recompensas hacia objetivos locales. Durante la inferencia, MASPRM guía la búsqueda por haz y MCTS a nivel de paso, enfocando el cómputo en ramas prometedoras y podando tempranamente. En GSM8K y MATH, la decodificación guiada por MASPRM con un modelo de recompensa de resultado (ORM) aplicado a la respuesta final, mejora la coincidencia exacta (EM) respecto a una única pasada directa de un MAS en +30.7 y +22.9 puntos, respectivamente. Un MASPRM entrenado en GSM8K se transfiere *zero-shot* a MATH sin reentrenamiento, añadiendo 8.4 puntos EM con el mismo presupuesto. MASPRM es un modelo de valor complementario que estima el progreso por agente y complementa a los decodificadores de estilo verificador, permitiendo un razonamiento multi-agente más confiable y consciente del cómputo. Código: https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time
performance, motivating methods that guide inference-time search and
selectively spend compute to improve quality. We present the Multi-Agent System
Process Reward Model (MASPRM). It assigns per-action, per-agent values to
partial inter-agent transcripts and acts as an inference-time controller.
MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts
without requiring step-level human annotations, by propagating returns to local
targets. At inference, MASPRM guides step-level beam search and MCTS, focusing
computation on promising branches and pruning early. On GSM8K and MATH,
MASPRM-guided decoding with an outcome reward model (ORM) applied to the final
answer, improves exact match (EM) over a single straight-through MAS pass by
+30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers
zero-shot to MATH without retraining, adding 8.4 EM points at the same
budget. MASPRM is a plug-in value model that estimates per-agent progress and
complements verifier-style decoders, enabling more reliable, compute-aware
multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM