Wann verbessert Multi-Agenten-RL LLM-Workflows? Workflow, Skalierung und Policy-Sharing-Kompromisse

Zusammenfassung

Multi-Agent-LLM-Workflows leiten Inferenzen über spezialisierte Rollen, um die Genauigkeit der Endaufgabe zu steigern, doch das gemeinsame Training dieser Rollen mit Reinforcement Learning ist auf bisher kaum verstandene Weise instabil. Wir untersuchen, unter welchen Bedingungen ein End-to-End-RL-Training von Multi-Agent-LLM-Workflows die Basis-Modelle verbessert, und vergleichen Shared-Policy-Training (alle Rollen aktualisieren eine gemeinsame Policy) mit Isolated-Policy-Training (jede Rolle verfügt über eigene Parameter). Unsere experimentelle Matrix umfasst die Workflows Eval-Opt, Voting und Orch-Workers, mathematische und Programmieraufgaben sowie drei Modellgrößen (0,6B, 1,7B, 4B). Wir stellen fest, dass Multi-Agent-RL die Basis-Modelle meist verbessert, die Gewinne jedoch gemeinsam von Workflow, Aufgabe und Skalierung abhängen – nicht allein von der Policy-Sharing-Strategie. Isolated-Policy erzielt tendenziell eine höhere Spitzengenauigkeit, stürzt jedoch häufiger von einer akkuraten Endkluft ab, während Shared-Policy-Training das Scheitern nicht beseitigt, sondern es in qualitativ andere Muster umverteilt. Anschließend erklären wir die stärksten dieser Muster durch rollenbezogene Gradientendynamiken, die durch die Workflow-Topologie und das Policy-Routing bedingt sind: Unter Isolated-Policy verstärken parallele gleichartige Rollen bei gemeinsamen Prompts die Gradienten pro Rolle und treiben in Voting- und Orch-Workers-Workflows eine terminale Verschlechterung voran; unter Shared-Policy führt die asymmetrische Gradientenmasse pro Schritt dazu, dass die gemeinsame Policy von der dominierenden Rolle eingenommen wird, was je nach Aufgabe und Workflow unterschiedliche Fehlerbilder erzeugt. Zusammengenommen zeigen die empirische Landkarte und ihre zugrundeliegenden Mechanismen, dass Policy-Sharing den Trainingsdruck über unterschiedliche Kanäle umleitet, statt gleichmäßige Stabilität zu bieten, und somit eine Designentscheidung darstellt, die mit workflow- und aufgabenabhängigen Kompromissen verbunden ist.

English

Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.