Aprendizaje por Refuerzo para Sistemas Multi-Agente Basados en LLM mediante Trazas de Orquestación

Resumen

A medida que los agentes de modelos de lenguaje grande (LLM) evolucionan de usuarios aislados de herramientas hacia equipos coordinados, el aprendizaje por refuerzo (RL) debe optimizar no solo las acciones individuales, sino también cómo se genera, delega, comunica, agrega y detiene el trabajo. Este artículo estudia el RL para sistemas multiagente basados en LLM a través de *traces* de orquestación: grafos de interacción temporal cuyos eventos incluyen la generación de subagentes, delegación, comunicación, uso de herramientas, retorno, agregación y decisiones de parada. Mediante esta lente, identificamos tres ejes técnicos. Primero, el diseño de recompensas abarca ocho familias, incluyendo recompensas de orquestación por aceleración debida al paralelismo, corrección de divisiones y calidad de la agregación. Segundo, las señales de recompensa y crédito se asignan a ocho unidades portadoras de crédito o señal, desde el token hasta el equipo; el crédito contrafáctico explícito a nivel de mensaje sigue siendo especialmente escaso en nuestro conjunto de datos curado. Tercero, el aprendizaje de orquestación se descompone en cinco subdecisiones: cuándo generar, a quién delegar, cómo comunicar, cómo agregar y cuándo detener. En nuestro conjunto de datos curado hasta el 4 de mayo de 2026, no encontramos ningún método de entrenamiento de RL explícito para la decisión de parada. Conectamos los métodos académicos con la evidencia industrial pública de Kimi Agent Swarm, OpenAI Codex y Anthropic Claude Code. La brecha de escala resultante es una diferencia entre los entornos de despliegue reportados públicamente y los regímenes de evaluación académica abierta, no una verificación independiente de los *traces* de entrenamiento industrial. Publicamos el artefacto en https://github.com/xxzcc/awesome-llm-mas-rl, que incluye un conjunto de 84 artículos etiquetados, un registro de exclusión de 32 entradas, estadísticas del corpus generadas por script y un esquema JSON mínimo para *traces* de orquestación reproducibles.

English

As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.

Aprendizaje por Refuerzo para Sistemas Multi-Agente Basados en LLM mediante Trazas de Orquestación

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

Resumen

Support