Когда многоагентное обучение с подкреплением улучшает рабочие процессы LLM? Компромиссы между рабочим процессом, масштабом и совместным использованием политик

Аннотация

Мультиагентные рабочие процессы на основе LLM распределяют вывод между специализированными ролями для повышения точности конечной задачи, однако совместное обучение этих ролей с помощью обучения с подкреплением нестабильно, причём причины этой нестабильности остаются слабо изученными. Мы исследуем, когда сквозное RL-обучение мультиагентных LLM-процессов улучшает показатели базовых моделей, сравнивая обучение с общей политикой (Shared-Policy), где все роли обновляют одну политику, и обучение с изолированной политикой (Isolated-Policy), где каждая роль имеет собственные параметры. Наша экспериментальная матрица включает рабочие процессы Eval-Opt, Voting и Orch-Workers, задачи по математике и программированию, а также три масштаба моделей (0,6B, 1,7B, 4B). Мы обнаружили, что мультиагентное RL обычно улучшает базовые модели, однако выигрыш зависит от совместного влияния рабочего процесса, задачи и масштаба, а не только от совместного использования политик. Изолированная политика, как правило, достигает более высокой пиковой точности, но чаще сталкивается с резким падением точности до терминального уровня, в то время как обучение с общей политикой не устраняет сбои, а перераспределяет их в качественно иные паттерны. Затем мы объясняем наиболее выраженные из этих паттернов через динамику градиентов на уровне ролей, обусловленную топологией рабочего процесса и маршрутизацией политик: при изолированной политике параллельные агенты одной роли на общих промптах усиливают градиенты каждой роли и приводят к терминальной деградации в процессах Voting и Orch-Workers; при общей политике асимметричная масса градиентов на каждом шаге приводит к захвату общей политики доминирующей ролью, порождая различные сигнатуры сбоев в зависимости от задачи и рабочего процесса. В совокупности эмпирическая карта и её механизмы показывают, что совместное использование политик перенаправляет тренировочное давление по другим каналам, а не обеспечивает равномерную стабильность, что делает его проектным выбором с условными компромиссами в зависимости от рабочего процесса и задачи.

English

Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.