ChatPaper.aiChatPaper

프로세스 보상을 통한 다중 에이전트 시스템 확장

Scaling Multiagent Systems with Process Rewards

January 30, 2026
저자: Ed Li, Junyu Ren, Cat Yan
cs.AI

초록

다중 에이전트 시스템은 전문화를 통해 복잡한 작업을 해결하는 가능성을 보여주었지만, 여러 에이전트를 동시에 파인튜닝하는 것은 두 가지 주요 과제에 직면합니다: (1) 에이전트 간의 크레딧 할당, 그리고 (2) 비용이 많이 드는 다중 에이전트 롤아웃의 샘플 효율성입니다. 본 연구에서는 이 두 가지 문제를 해결하기 위해 AI 피드백을 통한 행동별 과정 보상(MAPPA)으로 다중 에이전트 시스템을 파인튜닝하는 방법을 제안합니다. MAPPA는 작업 완료 시점에만 평가하는 대신 개별 에이전트 행동에 크레딧을 할당함으로써, 실측 정답 레이블 없이도 세분화된 지도를 가능하게 하고 각 롤아웃에서 최대의 훈련 신호를 추출합니다. 우리는 이 접근법을 경쟁 수학 문제와 도구 활용 데이터 분석 작업에 대해 실증합니다. 보지 못한 수학 문제에서 MAPPA는 AIME에서 +5.0~17.5%p, AMC에서 +7.8~17.2%p의 성능 향상을 달성했습니다. 데이터 분석 작업에서는 성공률이 +12.5%p 향상되었으며 품질 지표는 최대 30%까지 개선되어, 행동별 지도가 다양한 영역의 서로 다른 다중 에이전트 시스템 전반에 걸쳐 개선을 이끌 수 있음을 입증했습니다. 이러한 과제를 해결함으로써, 우리의 연구는 최소한의 인간 지도로 복잡하고 장기적인 작업을 위한 다중 에이전트 시스템 확장을 위한 첫걸음을 내디뎠습니다.
English
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
PDF62February 3, 2026