Escalonamento de Sistemas Multiagente com Recompensas de Processo

Resumo

Embora os sistemas multiagente tenham demonstrado potencial para lidar com tarefas complexas por meio da especialização, o ajuste fino de múltiplos agentes simultaneamente enfrenta dois desafios principais: (1) a atribuição de crédito entre os agentes e (2) a eficiência amostral de rollouts multiagente dispendiosos. Neste trabalho, propomos o ajuste fino de sistemas multiagente com recompensas de processo por ação a partir de feedback de IA (MAPPA) para abordar ambos. Ao atribuir crédito a ações individuais dos agentes, em vez de apenas na conclusão da tarefa, o MAPPA permite uma supervisão refinada sem rótulos de verdade fundamental, extraindo ao mesmo tempo o sinal de treinamento máximo de cada rollout. Demonstramos nossa abordagem em problemas de matemática competitiva e tarefas de análise de dados aumentadas por ferramentas. Em problemas matemáticos não vistos, o MAPPA alcança +5,0–17,5 pp no AIME e +7,8–17,2 pp no AMC. Para tarefas de análise de dados, nosso método melhora a taxa de sucesso em +12,5 pp, enquanto as métricas de qualidade melhoram em até 30%, validando que a supervisão por ação pode levar a melhorias em diferentes sistemas multiagente em vários domínios. Ao abordar esses desafios, nosso trabalho dá um primeiro passo em direção à escalabilidade de sistemas multiagente para tarefas complexas e de longo horizonte com supervisão humana mínima.

English

While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.

Escalonamento de Sistemas Multiagente com Recompensas de Processo

Scaling Multiagent Systems with Process Rewards

Resumo

Support