Scalabilità di Sistemi Multiagente con Ricompense di Processo

Abstract

Sebbene i sistemi multiagente abbiano mostrato potenziale nell'affrontare compiti complessi tramite specializzazione, l'ottimizzazione fine simultanea di più agenti incontra due sfide principali: (1) l'assegnazione del merito tra gli agenti e (2) l'efficienza campionaria dei costosi rollout multiagente. In questo lavoro, proponiamo l'ottimizzazione fine di sistemi multiagente con ricompense di processo per azione da feedback di IA (MAPPA) per affrontare entrambi i problemi. Assegnando il merito alle singole azioni degli agenti anziché solo al completamento del compito, MAPPA consente una supervisione granulare senza etichette di verità fondamentale, estraendo al contempo il segnale di addestramento massimo da ogni rollout. Dimostriamo il nostro approccio su problemi di matematica competitiva e su compiti di analisi dati con strumenti. Su problemi matematici non visti, MAPPA raggiunge un miglioramento di +5,0-17,5 pp su AIME e di +7,8-17,2 pp su AMC. Per i compiti di analisi dati, il nostro metodo migliora il tasso di successo del +12,5 pp mentre le metriche di qualità migliorano fino al 30%, convalidando il fatto che una supervisione per azione può portare a miglioramenti in diversi sistemi multiagente su vari domini. Affrontando queste sfide, il nostro lavoro compie un primo passo verso il ridimensionamento dei sistemi multiagente per compiti complessi e a lungo orizzonte con una supervisione umana minima.

English

While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.

Scalabilità di Sistemi Multiagente con Ricompense di Processo

Scaling Multiagent Systems with Process Rewards

Abstract

Support