MegaFlow:エージェント時代のための大規模分散オーケストレーションシステム
MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era
January 12, 2026
著者: Lei Zhang, Mouxiang Chen, Ruisheng Cao, Jiawei Chen, Fan Zhou, Yiheng Xu, Jiaxi Yang, Liang Chen, Changwei Luo, Kai Zhang, Fan Yan, KaShun Shum, Jiajun Zhang, Zeyu Cui, Hu Feng, Junyang Lin, Binyuan Hui, Min Yang
cs.AI
要旨
インタラクティブかつ自律的なAIシステムの急速な発展は、我々がエージェント時代に突入したことを示している。ソフトウェアエンジニアリングやコンピューター操作といった複雑なエージェントタスクにおけるエージェントの訓練と評価には、効率的なモデル計算のみならず、膨大なエージェントと環境の相互作用を調整可能な高度なインフラストラクチャが不可欠である。しかし、このような複雑なエージェントタスクにおける大規模な訓練と評価を効果的に支援するオープンソースのインフラストラクチャは存在しない。この課題に対処するため、我々はMegaFlowを提案する。これは、エージェントと環境のワークロードに対して、効率的なスケジューリング、リソース割り当て、きめ細かいタスク管理を実現する大規模分散オーケストレーションシステムである。MegaFlowはエージェント訓練インフラを、統一されたインターフェースを介して相互作用する3つの独立したサービス(モデルサービス、エージェントサービス、環境サービス)に抽象化し、多様なエージェント-環境構成にわたる独立したスケーリングと柔軟なリソース割り当てを可能にする。我々のエージェント訓練環境における導入では、MegaFlowは高いシステム安定性を維持し、効率的なリソース利用を達成しながら、数万の並行エージェントタスクのオーケストレーションに成功している。このような大規模なエージェント訓練を可能にすることで、MegaFlowは新興のエージェントAI領域における重大なインフラギャップを埋めるものである。
English
The rapid development of interactive and autonomous AI systems signals our entry into the agentic era. Training and evaluating agents on complex agentic tasks such as software engineering and computer use requires not only efficient model computation but also sophisticated infrastructure capable of coordinating vast agent-environment interactions. However, no open-source infrastructure can effectively support large-scale training and evaluation on such complex agentic tasks. To address this challenge, we present MegaFlow, a large-scale distributed orchestration system that enables efficient scheduling, resource allocation, and fine-grained task management for agent-environment workloads. MegaFlow abstracts agent training infrastructure into three independent services (Model Service, Agent Service, and Environment Service) that interact through unified interfaces, enabling independent scaling and flexible resource allocation across diverse agent-environment configurations. In our agent training deployments, MegaFlow successfully orchestrates tens of thousands of concurrent agent tasks while maintaining high system stability and achieving efficient resource utilization. By enabling such large-scale agent training, MegaFlow addresses a critical infrastructure gap in the emerging agentic AI landscape.