ChatPaper.aiChatPaper

메가플로우: 에이전트 시대를 위한 대규모 분산 오케스트레이션 시스템

MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

January 12, 2026
저자: Lei Zhang, Mouxiang Chen, Ruisheng Cao, Jiawei Chen, Fan Zhou, Yiheng Xu, Jiaxi Yang, Liang Chen, Changwei Luo, Kai Zhang, Fan Yan, KaShun Shum, Jiajun Zhang, Zeyu Cui, Hu Feng, Junyang Lin, Binyuan Hui, Min Yang
cs.AI

초록

상호작용 및 자율 인공지능 시스템의 급속한 발전은 우리가 에이전트 시대에 진입했음을 의미합니다. 소프트웨어 공학 및 컴퓨터 활용과 같은 복잡한 에이전트 과제에 대한 에이전트 훈련 및 평가는 효율적인 모델 연산뿐만 아니라 방대한 에이전트-환경 상호작용을 조정할 수 있는 정교한 인프라를 필요로 합니다. 그러나 이러한 복잡한 에이전트 과제에 대한 대규모 훈련 및 평가를 효과적으로 지원할 수 있는 오픈소스 인프라는 존재하지 않습니다. 이러한 문제를 해결하기 위해 우리는 에이전트-환경 워크로드를 위한 효율적인 스케줄링, 자원 할당 및 세분화된 작업 관리를 가능하게 하는 대규모 분산 오케스트레이션 시스템인 MegaFlow를 제안합니다. MegaFlow는 에이전트 훈련 인프라를 통합 인터페이스를 통해 상호작용하는 세 가지 독립적인 서비스(모델 서비스, 에이전트 서비스, 환경 서비스)로 추상화하여 다양한 에이전트-환경 구성에서 독립적인 확장과 유연한 자원 할당을 가능하게 합니다. 우리의 에이전트 훈련 배포에서 MegaFlow는 높은 시스템 안정성을 유지하고 효율적인 자원 활용을 달성하면서 수만 개의 동시 에이전트 작업을 성공적으로 조정합니다. 이러한 대규모 에이전트 훈련을 가능하게 함으로써 MegaFlow는 부상하는 에이전트 AI 환경에서 중요한 인프라 격차를 해소합니다.
English
The rapid development of interactive and autonomous AI systems signals our entry into the agentic era. Training and evaluating agents on complex agentic tasks such as software engineering and computer use requires not only efficient model computation but also sophisticated infrastructure capable of coordinating vast agent-environment interactions. However, no open-source infrastructure can effectively support large-scale training and evaluation on such complex agentic tasks. To address this challenge, we present MegaFlow, a large-scale distributed orchestration system that enables efficient scheduling, resource allocation, and fine-grained task management for agent-environment workloads. MegaFlow abstracts agent training infrastructure into three independent services (Model Service, Agent Service, and Environment Service) that interact through unified interfaces, enabling independent scaling and flexible resource allocation across diverse agent-environment configurations. In our agent training deployments, MegaFlow successfully orchestrates tens of thousands of concurrent agent tasks while maintaining high system stability and achieving efficient resource utilization. By enabling such large-scale agent training, MegaFlow addresses a critical infrastructure gap in the emerging agentic AI landscape.
PDF233January 31, 2026