ChatPaper.aiChatPaper

MASPRM: Modelo de Recompensa de Processo para Sistemas Multiagente

MASPRM: Multi-Agent System Process Reward Model

October 28, 2025
Autores: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI

Resumo

A implementação prática de Sistemas Multiagente (MAS) exige um forte desempenho em tempo de teste, motivando métodos que orientam a busca durante a inferência e gastam computação de forma seletiva para melhorar a qualidade. Apresentamos o Modelo de Recompensa de Processo para Sistemas Multiagente (MASPRM). Ele atribui valores por ação, por agente, a transcrições parciais de interações entre agentes e atua como um controlador durante a inferência. O MASPRM é treinado a partir de *rollouts* de Monte Carlo Tree Search (MCTS) multiagente, sem exigir anotações humanas a nível de etapa, propagando retornos para alvos locais. Na inferência, o MASPRM orienta a busca por feixe (*beam search*) e o MCTS a nível de etapa, focando a computação em ramos promissores e podando precocemente. No GSM8K e no MATH, a decodificação guiada por MASPRM com um modelo de recompensa de resultado (*outcome reward model* - ORM) aplicado à resposta final, melhora a correspondência exata (*exact match* - EM) em relação a uma única passagem direta (*straight-through*) do MAS em +30,7 e +22,9 pontos, respectivamente. Um MASPRM treinado no GSM8K transfere-se *zero-shot* para o MATH sem novo treinamento, adicionando 8,4 pontos de EM com o mesmo orçamento computacional. O MASPRM é um modelo de valor *plug-in* que estima o progresso por agente e complementa decodificadores no estilo de verificadores, permitindo um raciocínio multiagente mais confiável e consciente do custo computacional. Código: https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM
PDF141February 7, 2026