Schaalvergroting van Multiagent-systemen met Procesbeloningen

Samenvatting

Hoewel multiagentsystemen veelbelovend zijn gebleken voor het aanpakken van complexe taken via specialisatie, kampt het gelijktijdig finetunen van meerdere agenten met twee belangrijke uitdagingen: (1) de toewijzing van verdienste (credit assignment) tussen agenten, en (2) de steekproefefficiëntie van kostelijke multiagent-rollouts. In dit werk stellen we voor om multiagentsystemen te finetunen met beloningen per actie op basis van AI-feedback (MAPPA) om beide problemen aan te pakken. Door verdienste toe te kennen aan individuele agentacties in plaats van alleen bij taakvoltooiing, maakt MAPPA gedetailleerd toezicht mogelijk zonder grondwaarheid-labels, terwijl het het maximale trainingssignaal uit elke rollout haalt. We demonstreren onze aanpak op wiskundige competitieproblemen en tool-ondersteunde data-analysetaken. Ongeziene wiskundeproblemen laat MAPPA een verbetering zien van +5,0–17,5 procentpunt op de AIME en +7,8–17,2 procentpunt op de AMC. Voor data-analysetaken verbetert onze methode het slagingspercentage met +12,5 procentpunt, terwijl kwaliteitsmetingen met tot 30% verbeteren. Dit valideert dat toezicht per actie kan leiden tot verbeteringen in verschillende multiagentsystemen en domeinen. Door deze uitdagingen aan te pakken, zet ons werk een eerste stap naar het schalen van multiagentsystemen voor complexe, langetermijntaken met minimale menselijke supervisie.

English

While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.

Schaalvergroting van Multiagent-systemen met Procesbeloningen

Scaling Multiagent Systems with Process Rewards

Samenvatting

Support