ChatPaper.aiChatPaper

Mise à l'échelle des systèmes multi-agents avec récompenses de processus

Scaling Multiagent Systems with Process Rewards

January 30, 2026
papers.authors: Ed Li, Junyu Ren, Cat Yan
cs.AI

papers.abstract

Bien que les systèmes multi-agents aient montré des potentialités pour traiter des tâches complexes via la spécialisation, le réglage fin simultané de multiples agents se heurte à deux défis majeurs : (1) l'attribution du crédit entre les agents, et (2) l'efficacité en échantillons des rollouts multi-agents coûteux. Dans ce travail, nous proposons le réglage fin de systèmes multi-agents avec des récompenses de processus par action issues de retours d'IA (MAPPA) pour résoudre ces deux problèmes. En attribuant le crédit à des actions individuelles d'agents plutôt qu'uniquement à la fin de la tâche, MAPPA permet une supervision fine sans vérité terrain tout en extrayant le signal d'entraînement maximal de chaque rollout. Nous démontrons notre approche sur des problèmes de mathématiques compétitives et des tâches d'analyse de données assistées par outils. Sur des problèmes mathématiques inédits, MAPPA obtient des gains de +5,0 à 17,5 pp sur l'AIME et de +7,8 à 17,2 pp sur l'AMC. Pour les tâches d'analyse de données, notre méthode améliore le taux de réussite de +12,5 pp tandis que les métriques de qualité s'améliorent jusqu'à 30 %, validant qu'une supervision par action peut conduire à des améliorations sur différents systèmes multi-agents et domaines. En relevant ces défis, notre travail constitue une première étape vers la mise à l'échelle de systèmes multi-agents pour des tâches complexes et à long horizon avec une supervision humaine minimale.
English
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
PDF62February 3, 2026