ChatPaper.aiChatPaper

MASPRM: 다중 에이전트 시스템 프로세스 보상 모델

MASPRM: Multi-Agent System Process Reward Model

October 28, 2025
저자: Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong
cs.AI

초록

다중 에이전트 시스템(MAS)의 실제 적용에서는 강력한 테스트 시점 성능이 요구되며, 이는 추론 시점 탐색을 안내하고 품질 향상을 위해 계산 자원을 선택적으로 투입하는 방법론의 필요성을 부각시킵니다. 본 논문에서는 다중 에이전트 시스템 프로세스 보상 모델(MASPRM)을 제안합니다. MASPRM은 부분적인 에이전트 간 상호작용 기록에 대해 행위 및 에이전트별 가치를 부여하며, 추론 시점 제어기 역할을 수행합니다. MASPRM은 단계별 인간 주해 없이도 다중 에이전트 몬테카를로 트리 탐색(MCTS) 롤아웃으로부터 학습되며, 최종 보상을 지역 대상에 전파하는 방식으로 훈련됩니다. 추론 시점에는 MASPRM이 단계별 빔 서치와 MCTS를 안내하여 유망한 분기에 계산을 집중하고 조기에 가지치기를 수행합니다. GSM8K와 MATH 데이터셋에서 최종 답변에 적용된 결과 보상 모델(ORM)과 결합된 MASPRM 기반 디코딩은 단일 직통 MAS 처리 방식 대비 정확일치(EM) 점수를 각각 +30.7점, +22.9점 향상시켰습니다. GSM8K에서 훈련된 MASPRM은 재훈련 없이 MATH 데이터셋으로 제로샷 전이되어 동일 예산 기준 8.4 EM 점수의 향상을 달성했습니다. MASPRM은 에이전트별 진행 상황을 추정하는 플러그인 방식의 가치 모델로서 검증기 스타일 디코더를 보완하며, 더욱 신뢰할 수 있고 계산 자원을 고려한 다중 에이전트 추론을 가능하게 합니다. 코드: https://github.com/milad1378yz/MASPRM
English
Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM
PDF121December 2, 2025