ChatPaper.aiChatPaper

Skalierung von Multiagentensystemen mit Prozessbelohnungen

Scaling Multiagent Systems with Process Rewards

January 30, 2026
papers.authors: Ed Li, Junyu Ren, Cat Yan
cs.AI

papers.abstract

Während Multiagentensysteme vielversprechende Ansätze zur Bewältigung komplexer Aufgaben durch Spezialisierung gezeigt haben, steht das gleichzeitige Feinabstimmen mehrerer Agenten vor zwei zentralen Herausforderungen: (1) der Kreditverteilung (Credit Assignment) zwischen den Agenten und (2) der Stichprobeneffizienz aufwändiger Multiagenten-Rollouts. In dieser Arbeit schlagen wir das Feinabstimmen von Multiagentensystemen mit pro-Aktion-Prozessbelohnungen durch KI-Feedback (MAPPA) vor, um beide Probleme anzugehen. Indem MAPPA den einzelnen Aktionen der Agenten und nicht erst dem Aufgabenabschluss Kredit zuweist, ermöglicht es eine feingranulare Überwachung ohne Ground-Truth-Labels und extrahiert gleichzeitig das maximale Trainingssignal aus jedem Rollout. Wir demonstrieren unseren Ansatz anhand von Mathematikwettbewerbsproblemen und werkzeuggestützten Datenanalysaufgaben. Bei unbekannten Mathematikproblemen erzielt MAPPA eine Steigerung von +5,0–17,5 Prozentpunkten (pp) beim AIME und +7,8–17,2 pp beim AMC. Bei Datenanalysaufgaben verbessert unsere Methode die Erfolgsquote um +12,5 pp, während Qualitätsmetriken um bis zu 30 % steigen. Dies bestätigt, dass eine pro-Aktion-Überwachung zu Verbesserungen in verschiedenen Multiagentensystemen und Domänen führen kann. Durch die Bewältigung dieser Herausforderungen macht unsere Arbeit einen ersten Schritt hin zur Skalierung von Multiagentensystemen für komplexe, langfristige Aufgaben mit minimaler menschlicher Überwachung.
English
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
PDF62February 3, 2026