ChatPaper.aiChatPaper

오케스트레이션 트레이스를 통한 LLM 기반 다중 에이전트 시스템의 강화 학습

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

May 4, 2026
저자: Chenchen Zhang
cs.AI

초록

대규모 언어 모델(LLM) 에이전트가 단순한 도구 사용자를 넘어 조정된 팀으로 진화함에 따라, 강화 학습(RL)은 개별 행동뿐만 아니라 작업이 생성, 위임, 소통, 통합, 종료되는 방식까지 최적화해야 합니다. 본 논문은 LLM 기반 다중 에이전트 시스템을 위한 RL을 오케스트레이션 트레이스(시간적 상호작용 그래프)의 관점에서 연구합니다. 이 트레이스의 이벤트에는 하위 에이전트 생성, 위임, 의사소통, 도구 사용, 반환, 통합 및 종료 결정이 포함됩니다. 이러한 렌즈를 통해 우리는 세 가지 기술적 축을 확인했습니다. 첫째, 보상 설계는 병렬화 속도 향상, 분할 정확도, 통합 품질에 대한 오케스트레이션 보상을 포함한 여덟 가지 범주로 구분됩니다. 둘째, 보상 및 크레딧 신호는 토큰부터 팀 수준에 이르는 여덟 가지 신호 부여 단위에 첨부됩니다. 특히 우리가 구축한 자료 집합에서 명시적인 반사실적 메시지 수준 크레딧은 여전히 매우 드물게 나타납니다. 셋째, 오케스트레이션 학습은 언제 생성할지, 누구에게 위임할지, 어떻게 소통할지, 어떻게 통합할지, 언제 종료할지라는 다섯 가지 하위 결정으로 분해됩니다. 2026년 5월 4일 기준 우리가 수집한 자료 집합에서는 종료 결정을 위한 명시적인 RL 훈련 방법이 발견되지 않았습니다. 우리는 학계의 방법론을 Kimi Agent Swarm, OpenAI Codex, Anthropic Claude Code와 같은 공개된 산업계 증거와 연결합니다.由此 나타나는 규모 격차는 공개적으로 보고된 배포 범위와 공개 학계 평가 체제 간의 차이이며, 산업계 훈련 트레이스에 대한 독립적인 검증을 의미하지는 않습니다. 우리는 https://github.com/xxzcc/awesome-llm-mas-rl 에서 아티팩트를 공개합니다. 여기에는 84개 항목의 태그 지정 논문 집합, 32개 기록의 제외 로그, 스크립트화된 말뭉치 통계, 그리고 재생 가능한 오케스트레이션 트레이스를 위한 최소 JSON 스키마가 포함됩니다.
English
As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.
PDF32May 7, 2026