МегаФлоу: Масштабируемая распределенная система оркестрации для эпохи агентов
MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era
January 12, 2026
Авторы: Lei Zhang, Mouxiang Chen, Ruisheng Cao, Jiawei Chen, Fan Zhou, Yiheng Xu, Jiaxi Yang, Liang Chen, Changwei Luo, Kai Zhang, Fan Yan, KaShun Shum, Jiajun Zhang, Zeyu Cui, Hu Feng, Junyang Lin, Binyuan Hui, Min Yang
cs.AI
Аннотация
Быстрое развитие интерактивных и автономных систем искусственного интеллекта знаменует наш вход в эпоху агентных систем. Обучение и оценка агентов на сложных агентных задачах, таких как разработка программного обеспечения и работа с компьютером, требуют не только эффективных вычислительных моделей, но и сложной инфраструктуры, способной координировать масштабные взаимодействия агента со средой. Однако существующие открытые инфраструктурные решения не могут эффективно поддерживать крупномасштабное обучение и оценку для таких сложных агентных задач. Для решения этой проблемы мы представляем MegaFlow — масштабируемую распределенную систему оркестрации, которая обеспечивает эффективное планирование, распределение ресурсов и детальное управление задачами для рабочих нагрузок «агент-среда». MegaFlow абстрагирует инфраструктуру обучения агентов в три независимых сервиса (Сервис моделей, Сервис агентов и Сервис сред), взаимодействующих через унифицированные интерфейсы, что позволяет независимое масштабирование и гибкое распределение ресурсов для различных конфигураций «агент-среда». В наших развертываниях по обучению агентов MegaFlow успешно управляет десятками тысяч параллельных агентных задач, сохраняя высокую стабильность системы и достигая эффективного использования ресурсов. Обеспечивая возможность столь масштабного обучения агентов, MegaFlow заполняет критический инфраструктурный пробел в emerging-ландшафте агентного ИИ.
English
The rapid development of interactive and autonomous AI systems signals our entry into the agentic era. Training and evaluating agents on complex agentic tasks such as software engineering and computer use requires not only efficient model computation but also sophisticated infrastructure capable of coordinating vast agent-environment interactions. However, no open-source infrastructure can effectively support large-scale training and evaluation on such complex agentic tasks. To address this challenge, we present MegaFlow, a large-scale distributed orchestration system that enables efficient scheduling, resource allocation, and fine-grained task management for agent-environment workloads. MegaFlow abstracts agent training infrastructure into three independent services (Model Service, Agent Service, and Environment Service) that interact through unified interfaces, enabling independent scaling and flexible resource allocation across diverse agent-environment configurations. In our agent training deployments, MegaFlow successfully orchestrates tens of thousands of concurrent agent tasks while maintaining high system stability and achieving efficient resource utilization. By enabling such large-scale agent training, MegaFlow addresses a critical infrastructure gap in the emerging agentic AI landscape.