Versterkend Leren voor LLM-gebaseerde Multi-Agent Systemen via Orkestratiesporen

Samenvatting

Naarmate taalmodelagenten (LLM-agents) evolueren van geïsoleerde toolgebruikers naar gecoördineerde teams, moet reinforcement learning (RL) niet alleen individuele acties optimaliseren, maar ook hoe werk wordt gespawned, gedelegeerd, gecommuniceerd, geaggregeerd en gestopt. Dit artikel bestudeert RL voor LLM-gebaseerde multi-agent systemen via orchestratietraces: temporele interactiegrafieken waarvan de gebeurtenissen sub-agent spawning, delegatie, communicatie, toolgebruik, return, aggregatie en stopbeslissingen omvatten. Door deze lens identificeren we drie technische assen. Ten eerste omvat reward design acht families, inclusief orchestratiebeloningen voor parallelisme-snelheidswinst, splitscorrectheid en aggregatiekwaliteit. Ten tweede hechten reward- en creditsignalen zich aan acht eenheden die credits of signalen dragen, van token tot team; expliciete contrafeitelijke credit op berichtniveau blijft bijzonder schaars in onze gecureerde pool. Ten derde decomposeert orchestratieleren in vijf subbeslissingen: wanneer te spawnen, aan wie te delegeren, hoe te communiceren, hoe te aggregeren en wanneer te stoppen. In onze gecureerde pool per 4 mei 2026 vonden we geen expliciete RL-trainingsmethode voor de stopbeslissing. We verbinden academische methoden met publiek industriëel bewijs van Kimi Agent Swarm, OpenAI Codex en Anthropic Claude Code. De resulterende schaalkloof is een kloof tussen publiek gerapporteerde implementatie-enveloppen en open academische evaluatieregimes, geen onafhankelijke verificatie van industriële trainingssporen. We geven de artefacten vrij op https://github.com/xxzcc/awesome-llm-mas-rl, inclusief een getagde paperpool van 84 entries, een uitsluitingslogboek met 32 records, gescripte corpusstatistieken en een minimaal JSON-schema voor replaybare orchestratietraces.

English

As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.

Versterkend Leren voor LLM-gebaseerde Multi-Agent Systemen via Orkestratiesporen

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

Samenvatting

Support