ChatPaper.aiChatPaper

Масштабирование многоагентных систем с поощрениями на уровне процессов

Scaling Multiagent Systems with Process Rewards

January 30, 2026
Авторы: Ed Li, Junyu Ren, Cat Yan
cs.AI

Аннотация

Хотя многоагентные системы демонстрируют потенциал для решения сложных задач за счет специализации, тонкая настройка нескольких агентов одновременно сталкивается с двумя ключевыми проблемами: (1) распределением заслуг между агентами и (2) эффективностью использования дорогостоящих сэмплов в многоагентных прогонах. В данной работе мы предлагаем метод тонкой настройки многоагентных систем с пошаговыми вознаграждениями на основе ИИ-обратной связи (MAPPA) для решения обеих проблем. Присваивая заслуги отдельным действиям агентов, а не только по завершении задачи, MAPPA обеспечивает детализированный контроль без эталонных меток, одновременно извлекая максимальную обучающую информацию из каждого прогона. Мы демонстрируем наш подход на задачах из математических соревнований и инструментально расширенных задачах анализа данных. На новых математических задачах MAPPA показывает прирост на +5,0–17,5 п.п. на AIME и +7,8–17,2 п.п. на AMC. Для задач анализа данных наш метод повышает процент успешного выполнения на +12,5 п.п., а метрики качества улучшаются до 30%, что подтверждает, что пошаговый контроль может приводить к улучшениям в различных многоагентных системах и предметных областях. Решая эти проблемы, наша работа представляет собой первый шаг к масштабированию многоагентных систем для сложных долгосрочных задач с минимальным участием человека.
English
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
PDF62February 3, 2026