Обучение с подкреплением для мульти-агентных систем на основе больших языковых моделей с использованием трассировки оркестрации
Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
May 4, 2026
Авторы: Chenchen Zhang
cs.AI
Аннотация
По мере того как агенты на основе больших языковых моделей (LLM) эволюционируют от изолированных пользователей инструментов к скоординированным командам, обучение с подкреплением (RL) должно оптимизировать не только индивидуальные действия, но и то, как работа порождается, делегируется, коммуницируется, агрегируется и останавливается. В данной статье исследуется RL для многоагентных систем на основе LLM через призму трасс оркестрации: временных графов взаимодействий, события в которых включают порождение под-агентов, делегирование, коммуникацию, использование инструментов, возврат результатов, агрегацию и решения об остановке.
Используя этот подход, мы выделяем три технические оси. Во-первых, проектирование функции вознаграждения охватывает восемь семейств, включая вознаграждения за оркестрацию для ускорения за счет параллелизма, корректности разделения и качества агрегации. Во-вторых, сигналы вознаграждения и кредита привязываются к восьми единицам, несущим кредит или сигнал — от токена до команды; явный контрафактный кредит на уровне сообщений остается особенно редким в нашем курируемом наборе работ. В-третьих, обучение оркестрации декомпозируется на пять под-решений: когда порождать, кому делегировать, как коммуницировать, как агрегировать и когда останавливаться. В нашем курируемом наборе работ по состоянию на 4 мая 2026 года мы не обнаружили явных методов RL-обучения для решения об остановке.
Мы связываем академические методы с публичными промышленными свидетельствами от Kimi Agent Swarm, OpenAI Codex и Anthropic Claude Code. Возникающий в результате разрыв в масштабе — это разрыв между публично reported envelopes развертывания и открытыми академическими режимами оценки, а не независимой верификацией промышленных трасс обучения. Мы публикуем артефакт по адресу https://github.com/xxzcc/awesome-llm-mas-rl, включая аннотированную базу из 84 статей, лог исключений из 32 записей, скриптовую статистику корпуса и минимальную JSON-схему для воспроизводимых трасс оркестрации.
English
As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions.
Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision.
We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.