ChatPaper.aiChatPaper

Apprentissage par Renforcement pour les Systèmes Multi-Agents basés sur LLM via les Traces d'Orchestration

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

May 4, 2026
Auteurs: Chenchen Zhang
cs.AI

Résumé

À mesure que les agents de grands modèles de langage (LLM) évoluent d'utilisateurs d'outils isolés vers des équipes coordonnées, l'apprentissage par renforcement (RL) doit optimiser non seulement les actions individuelles, mais aussi la manière dont le travail est généré, délégué, communiqué, agrégé et arrêté. Cet article étudie le RL pour les systèmes multi-agents basés sur des LLM à travers les traces d'orchestration : des graphes d'interaction temporelle dont les événements incluent la génération de sous-agents, la délégation, la communication, l'utilisation d'outils, le retour, l'agrégation et les décisions d'arrêt. En utilisant cette perspective, nous identifions trois axes techniques. Premièrement, la conception de la récompense couvre huit familles, incluant des récompenses d'orchestration pour l'accélération par parallélisme, l'exactitude de la division et la qualité de l'agrégation. Deuxièmement, les signaux de récompense et de crédit s'attachent à huit unités porteuses de crédit ou de signal, allant du token à l'équipe ; le crédit contrefactuel explicite au niveau du message reste particulièrement rare dans notre corpus sélectionné. Troisièmement, l'apprentissage de l'orchestration se décompose en cinq sous-décisions : quand générer un agent, à qui déléguer, comment communiquer, comment agréger et quand arrêter. Dans notre corpus sélectionné au 4 mai 2026, nous n'avons trouvé aucune méthode d'entraînement RL explicite pour la décision d'arrêt. Nous mettons en relation les méthodes académiques avec les preuves industrielles publiques provenant de Kimi Agent Swarm, OpenAI Codex et Anthropic Claude Code. L'écart d'échelle qui en résulte est un fossé entre les périmètres de déploiement rapportés publiquement et les régimes d'évaluation académique ouverts, et non une vérification indépendante des traces d'entraînement industrielles. Nous publions l'artefact à l'adresse https://github.com/xxzcc/awesome-llm-mas-rl, incluant un corpus de 84 articles étiquetés, un journal d'exclusion de 32 enregistrements, des statistiques de corpus générées par script, et un schéma JSON minimal pour des traces d'orchestration rejouables.
English
As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.
PDF32May 7, 2026