Quand le RL multi-agent améliore-t-il les workflows des LLM ? Compromis entre workflow, échelle et partage de politiques
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs
May 22, 2026
Auteurs: Yifan Zeng, Yiran Wu, Yaolun Zhang, Wentian Zhao, Kun Wan, Qingyun Wu, Huazheng Wang
cs.AI
Résumé
Les flux de travail multi-agents basés sur des LLM acheminent l'inférence via des rôles spécialisés pour améliorer la précision des tâches finales, mais l'entraînement conjoint de ces rôles avec l'apprentissage par renforcement est instable de manière mal comprise. Nous étudions dans quelles conditions l'entraînement RL de bout en bout des flux de travail multi-agents LLM améliore leurs modèles de base, en comparant l'entraînement à politique partagée (Shared-Policy), où tous les rôles mettent à jour une politique unique, avec l'entraînement à politique isolée (Isolated-Policy), où chaque rôle possède ses propres paramètres. Notre matrice expérimentale couvre les flux de travail Eval-Opt, Voting et Orch-Workers, des tâches de mathématiques et de codage, ainsi que trois échelles de modèles (0,6B, 1,7B, 4B). Nous constatons que le RL multi-agents améliore généralement les modèles de base, mais que les gains dépendent conjointement du flux de travail, de la tâche et de l'échelle, et non du seul partage de politique. L'entraînement à politique isolée tend à atteindre une précision maximale plus élevée, mais chute plus souvent brutalement en précision terminale, tandis que l'entraînement à politique partagée n'élimine pas l'échec ; il redistribue l'échec en motifs qualitativement différents. Nous expliquons ensuite les plus forts de ces motifs par des dynamiques de gradient au niveau des rôles induites par la topologie du flux de travail et le routage de la politique : sous la politique isolée, des agents parallèles de même rôle sur des prompts partagés amplifient les gradients par rôle et entraînent une dégradation terminale dans les flux de travail Voting et Orch-Workers ; sous la politique partagée, une masse de gradient asymétrique par étape fait que la politique partagée est capturée par le rôle dominant, produisant des signatures d'échec différentes selon la tâche et le flux de travail. Ensemble, la carte empirique et ses mécanismes sous-jacents montrent que le partage de politique achemine la pression d'entraînement à travers différents canaux plutôt que d'offrir une stabilité uniforme, ce qui en fait un choix de conception avec des compromis conditionnels au flux de travail et à la tâche.
English
Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.