Verstärkendes Lernen für LLM-basierte Multi-Agenten-Systeme durch Orchestrierungstraces

Zusammenfassung

Mit der Entwicklung von KI-Agenten auf Basis großer Sprachmodelle (LLM) von isolierten Werkzeugnutzern zu koordinierten Teams muss Reinforcement Learning (RL) nicht nur individuelle Aktionen optimieren, sondern auch, wie Arbeit erzeugt, delegiert, kommuniziert, aggregiert und beendet wird. Diese Arbeit untersucht RL für LLM-basierte Multi-Agenten-Systeme durch Orchestrierungstraces: zeitliche Interaktionsgraphen, deren Ereignisse das Erzeugen von Sub-Agenten, Delegation, Kommunikation, Werkzeugnutzung, Rückgabe, Aggregation und Stopp-Entscheidungen umfassen. Durch diese Betrachtungsweise identifizieren wir drei technische Achsen. Erstens umfasst das Reward-Design acht Familien, einschließlich Orchestrierungs-Rewards für Parallelisierungsbeschleunigung, Korrektheit der Aufteilung und Aggregationsqualität. Zweitens lassen sich Belohnungs- und Kreditsignale acht verschiedenen Einheiten zuordnen – von Token bis zum Team; expliziter kontrafaktischer Kredit auf Nachrichtenebene bleibt in unserem kuratierten Pool besonders selten. Drittens zerfällt das Erlernen von Orchestrierung in fünf Teilentscheidungen: Wann soll ein Agent erzeugt werden, an wen wird delegiert, wie wird kommuniziert, wie wird aggregiert und wann wird gestoppt? In unserem kuratierten Pool (Stand: 4. Mai 2026) fanden wir keine explizite RL-Trainingsmethode für die Stopp-Entscheidung. Wir verbinden akademische Methoden mit öffentlichen industriellen Belegen von Kimi Agent Swarm, OpenAI Codex und Anthropic Claude Code. Die resultierende Skalierungslücke ist eine Lücke zwischen öffentlich berichteten Einsatzbereichen und offenen akademischen Evaluierungsregimen, nicht eine unabhängige Verifikation industrieller Trainings-Traces. Wir veröffentlichen das Artefakt unter https://github.com/xxzcc/awesome-llm-mas-rl, einschließlich eines 84-Einträge umfassenden, getaggten Paper-Pools, eines 32-Datensätze umfassenden Ausschlussprotokolls, skriptbasierter Korpusstatistiken und eines minimalen JSON-Schemas für wiederverwendbare Orchestrierungstraces.

English

As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.

Verstärkendes Lernen für LLM-basierte Multi-Agenten-Systeme durch Orchestrierungstraces

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

Zusammenfassung

Support