Quando o Aprendizado por Reforço Multiagente Melhora os Fluxos de Trabalho com LLMs? Compensações entre Fluxo de Trabalho, Escala e Compartilhamento de Políticas

Resumo

Fluxos de trabalho de LLM multiagente roteiam inferência por meio de papéis especializados para aumentar a precisão da tarefa final, mas o treinamento conjunto desses papéis com aprendizado por reforço é instável de maneiras pouco compreendidas. Estudamos quando o treinamento RL ponta a ponta de fluxos de trabalho de LLM multiagente melhora em relação aos seus modelos base, comparando o treinamento de Política Compartilhada, onde todos os papéis atualizam uma política, com o treinamento de Política Isolada, onde cada papel tem seus próprios parâmetros. Nossa matriz experimental abrange fluxos de trabalho Eval-Opt, Voting e Orch-Workers, tarefas de matemática e código, e três escalas de modelo (0,6B, 1,7B, 4B). Descobrimos que o RL multiagente geralmente melhora em relação aos modelos base, mas os ganhos dependem conjuntamente do fluxo de trabalho, da tarefa e da escala, não apenas do compartilhamento de políticas. A Política Isolada tende a atingir maior precisão de pico, mas com mais frequência cai de um penhasco terminal de precisão, enquanto o treinamento de Política Compartilhada não elimina falhas; ele redistribui as falhas em padrões qualitativamente diferentes. Em seguida, explicamos o mais forte desses padrões por meio de dinâmicas de gradiente no nível do papel induzidas pela topologia do fluxo de trabalho e pelo roteamento de políticas: sob Política Isolada, agentes paralelos do mesmo papel em prompts compartilhados amplificam os gradientes por papel e impulsionam a degradação terminal em fluxos de trabalho Voting e Orch-Workers; sob Política Compartilhada, a massa de gradiente assimétrica por etapa faz com que a política compartilhada seja capturada pelo papel dominante, produzindo assinaturas de falha diferentes por tarefa e fluxo de trabalho. Juntos, o mapa empírico e seus mecanismos subjacentes mostram que o compartilhamento de políticas roteia a pressão de treinamento por meio de canais diferentes, em vez de oferecer estabilidade uniforme, tornando-o uma escolha de projeto com tradeoffs condicionais ao fluxo de trabalho e à tarefa.

English

Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.