¿Cuándo mejora el RL multiagente los flujos de trabajo de LLM? Compensaciones entre flujo de trabajo, escala y compartición de políticas.
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs
May 22, 2026
Autores: Yifan Zeng, Yiran Wu, Yaolun Zhang, Wentian Zhao, Kun Wan, Qingyun Wu, Huazheng Wang
cs.AI
Resumen
Los flujos de trabajo multiagente con LLM enrutan la inferencia a través de roles especializados para mejorar la precisión en la tarea final, pero el entrenamiento conjunto de esos roles con aprendizaje por refuerzo es inestable de maneras que se comprenden mal. Estudiamos cuándo el entrenamiento de RL de extremo a extremo de flujos de trabajo multiagente con LLM mejora con respecto a sus modelos base, comparando el entrenamiento de política compartida, donde todos los roles actualizan una política, con el entrenamiento de política aislada, donde cada rol tiene sus propios parámetros. Nuestra matriz experimental abarca los flujos de trabajo Eval-Opt, Voting y Orch-Workers, tareas de matemáticas y código, y tres escalas de modelo (0.6B, 1.7B, 4B). Encontramos que el RL multiagente generalmente mejora con respecto a los modelos base, pero las ganancias dependen conjuntamente del flujo de trabajo, la tarea y la escala, no solo del uso de política compartida. La política aislada tiende a alcanzar una precisión máxima más alta pero con mayor frecuencia cae en un precipicio de precisión terminal, mientras que el entrenamiento de política compartida no elimina el fracaso; lo redistribuye en patrones cualitativamente diferentes. Luego explicamos los patrones más fuertes a través de dinámicas de gradiente a nivel de rol inducidas por la topología del flujo de trabajo y el enrutamiento de políticas: bajo política aislada, los agentes paralelos del mismo rol en indicaciones compartidas amplifican los gradientes por rol y conducen a una degradación terminal en los flujos de trabajo Voting y Orch-Workers; bajo política compartida, la masa asimétrica de gradiente por paso provoca que la política compartida sea capturada por el rol dominante, produciendo diferentes firmas de fracaso según la tarea y el flujo de trabajo. En conjunto, el mapa empírico y sus mecanismos subyacentes muestran que la política compartida enruta la presión de entrenamiento a través de diferentes canales en lugar de ofrecer estabilidad uniforme, convirtiéndola en una elección de diseño con compensaciones condicionadas por el flujo de trabajo y la tarea.
English
Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.