Wanneer verbetert multi-agent RL LLM-workflows? Workflow, schaal en afwegingen in beleidsdeling

Samenvatting

Multi-agent LLM-workflows leiden inferentie via gespecialiseerde rollen om de nauwkeurigheid van eindtaken te verbeteren, maar het gezamenlijk trainen van die rollen met reinforcement learning is instabiel op manieren die slecht worden begrepen. We bestuderen wanneer end-to-end RL-training van multi-agent LLM-workflows verbetert ten opzichte van hun basismodellen, door Shared-Policy-training, waarbij alle rollen één beleid bijwerken, te vergelijken met Isolated-Policy-training, waarbij elke rol zijn eigen parameters heeft. Onze experimentele matrix omvat Eval-Opt-, Voting- en Orch-Workers-workflows, wiskunde- en codetaken, en drie modelschalen (0,6B, 1,7B, 4B). We vinden dat multi-agent RL gewoonlijk verbetert ten opzichte van basismodellen, maar de winst hangt gezamenlijk af van workflow, taak en schaal, niet alleen van het delen van beleid. Isolated-Policy heeft de neiging een hogere pieknauwkeurigheid te bereiken, maar valt vaker van een terminale nauwkeurigheidsklif, terwijl Shared-Policy-training falen niet elimineert; het herverdeelt falen in kwalitatief verschillende patronen. We verklaren vervolgens de sterkste van deze patronen door rol-level gradiëntdynamica die wordt geïnduceerd door workflowtopologie en policy-routering: onder Isolated-Policy versterken parallelle agenten met dezelfde rol op gedeelde prompts de per-rol gradiënten en drijven ze terminale degradatie in Voting- en Orch-Workers-workflows; onder Shared-Policy veroorzaakt asymmetrische per-stap gradiëntmassa dat het gedeelde beleid wordt ingenomen door de dominante rol, wat verschillende faalsignaturen oplevert per taak en workflow. Samen tonen de empirische kaart en de onderliggende mechanismen aan dat het delen van beleid de trainingsdruk via verschillende kanalen leidt in plaats van uniforme stabiliteit te bieden, waardoor het een ontwerpkeuze is met workflow- en taakconditionele afwegingen.

English

Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.