ChatPaper.aiChatPaper

Escalado de Sistemas Multiagente con Recompensas de Proceso

Scaling Multiagent Systems with Process Rewards

January 30, 2026
Autores: Ed Li, Junyu Ren, Cat Yan
cs.AI

Resumen

Si bien los sistemas multiagente han mostrado potencial para abordar tareas complejas mediante la especialización, el ajuste fino simultáneo de múltiples agentes enfrenta dos desafíos clave: (1) la asignación de crédito entre agentes, y (2) la eficiencia muestral de las costosas ejecuciones multiagente. En este trabajo, proponemos el ajuste fino de sistemas multiagente con recompensas de proceso por acción a partir de retroalimentación de IA (MAPPA) para abordar ambos. Al asignar crédito a acciones individuales de los agentes en lugar de solo al finalizar la tarea, MAPPA permite una supervisión de grano fino sin etiquetas de verdad fundamental, extrayendo al mismo tiempo la máxima señal de entrenamiento de cada ejecución. Demostramos nuestro enfoque en problemas de matemáticas competitivas y tareas de análisis de datos aumentadas con herramientas. En problemas matemáticos no vistos, MAPPA logra mejoras de +5.0-17.5 pp en AIME y +7.8-17.2 pp en AMC. Para tareas de análisis de datos, nuestro método mejora la tasa de éxito en +12.5 pp, mientras que las métricas de calidad mejoran hasta en un 30%, validando que la supervisión por acción puede generar mejoras en diferentes sistemas multiagente en diversos dominios. Al abordar estos desafíos, nuestro trabajo da un primer paso hacia la escalabilidad de sistemas multiagente para tareas complejas y de largo horizonte con supervisión humana mínima.
English
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +12.5pp while quality metrics improve by up to 30%, validating that per-action supervision can lead to improvements across different multiagent system on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
PDF62February 3, 2026