AgensFlow: 다중 에이전트 시스템을 위한 조정 정책 기반
AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems
May 26, 2026
저자: Nicole Koenigstein
cs.AI
초록
대규모 언어 모델(LLM) 기반의 멀티에이전트 시스템은 사전에 고정하기 어려운 다양한 조정 선택지를 요구한다. 어떤 스킬 프로토콜을 호출할지, 어떤 에이전트 역할이 하위 작업을 수행해야 하는지, 각 역할에 어떤 모델을 할당할지, 역할 간 상호작용 방식을 어떻게 정할지, 검색 또는 검증을 언제 사용할지, 특정 단계를 아예 생략할지 등이 그 예이다. 이러한 선택들은 작업 체제 및 운영 제약 조건과 상호작용하므로, 정적 파이프라인이나 일회성 모델 비교는 설계 공간에 대한 제한적인 시각만을 제공한다. 본 논문은 부분 관측성 하에서 멀티에이전트 조정을 온라인 정책 학습 문제로 다루는 오픈소스 프레임워크인 AgensFlow를 소개한다. 이 프레임워크는 조정 선택지를 스킬, 역할, 모델, 토폴로지, 평가 선택지를 고정된 파이프라인 설계로 간주하는 대신, 반복된 궤적으로부터 관찰 가능하고 학습 가능하게 만든다.
AgensFlow는 분산 시스템 장애 작업과 보안 권고 작업이라는 두 가지 말뭉치에 대해 평가되었다. 평가 결과는 세 가지 주요 결과를 보여준다: 학습된 라우팅은 조정이 중요한 클래스에서 고정 파이프라인 기준선보다 더 높은 품질의 작동 지점에 도달한다; skip:X는 토폴로지 압축이 기반의 의미 있는 구성 요소임을 분리하여 보여준다; 웜스타트 정책 그래프는 탐색 비용을 줄이면서도 평탄역 품질을 유지할 수 있다. 전반적으로, 결과는 학습 가능하고 감사 가능한 라우팅이 정적 배선에 비해 조정이 중요한 멀티에이전트 워크플로우를 개선할 수 있음을 뒷받침한다.
English
Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill protocol to invoke, which agent role should perform a subtask, which model to bind to each role, how roles should interact, when to use retrieval or verification, and when to omit a step entirely. These choices interact with task regime and operational constraints, so static pipelines and one-off model comparisons provide only a limited view of the design space. This paper introduces AgensFlow, an open-source framework that treats multi-agent coordination as an online policy-learning problem under partial observability. The framework makes coordination decisions observable and learnable from repeated trajectories, rather than treating skill, role, model, topology, and evaluation choices as fixed pipeline design.
AgensFlow is evaluated on two corpora: distributed-systems incident tasks and security-advisory tasks. The evaluation shows three main results: learned routing reaches a higher-quality operating point than a fixed pipeline baseline on coordination-heavy classes; skip:X isolates topology compression as a meaningful part of the substrate; and warm-started policy graphs can reduce exploration cost while preserving plateau quality. Overall, the results support that learned, auditable routing can improve coordination-heavy multi-agent workflows over static wiring.