プロセス報酬によるマルチエージェントシステムのスケーリング
Scaling Multiagent Systems with Process Rewards
January 30, 2026
著者: Ed Li, Junyu Ren, Cat Yan
cs.AI
要旨
マルチエージェントシステムは専門性を活かした複雑タスク解決の可能性を示すが、複数エージェントの同時ファインチューニングには二つの課題がある:(1)エージェント間の信用割り当て、(2)高コストなマルチエージェントロールアウトのサンプル効率である。本研究では、AIフィードバックによる行動単位のプロセス報酬を用いたマルチエージェントシステムのファインチューニング(MAPPA)を提案し、両課題の解決を図る。タスク完了時のみならず個々のエージェント行動に信用割り当てを行うMAPPAは、正解ラベルなしできめ細かい監督を可能にするとともに、各ロールアウトから最大限の訓練信号を抽出する。競技数学問題とツール拡張データ分析タースクで本手法を実証した。未見の数学問題では、AIMEで+5.0~17.5pp、AMCで+7.8~17.2ppの精度向上を達成。データ分析タスクでは成功率が+12.5pp向上し、品質指標は最大30%改善され、行動単位の監督が異なるドメインのマルチエージェントシステム改善に有効であることを確認した。本成果は、人的監督を最小化しつつ複雑な長期タスク向けにマルチエージェントシステムをスケーリングする第一歩となる。
English
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.