ChatPaper.aiChatPaper

MegaFlow : Système d'orchestration distribué à grande échelle pour l'ère agentielle

MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

January 12, 2026
papers.authors: Lei Zhang, Mouxiang Chen, Ruisheng Cao, Jiawei Chen, Fan Zhou, Yiheng Xu, Jiaxi Yang, Liang Chen, Changwei Luo, Kai Zhang, Fan Yan, KaShun Shum, Jiajun Zhang, Zeyu Cui, Hu Feng, Junyang Lin, Binyuan Hui, Min Yang
cs.AI

papers.abstract

Le développement rapide des systèmes d'IA interactifs et autonomes marque notre entrée dans l'ère agentique. L'entraînement et l'évaluation d'agents sur des tâches agentiques complexes telles que l'ingénierie logicielle et l'utilisation informatique nécessitent non seulement un calcul efficace des modèles, mais aussi une infrastructure sophistiquée capable de coordonner de vastes interactions agent-environnement. Cependant, aucune infrastructure open-source ne peut actuellement prendre en charge efficacement l'entraînement et l'évaluation à grande échelle sur ce type de tâches complexes. Pour relever ce défi, nous présentons MegaFlow, un système d'orchestration distribué à grande échelle qui permet une planification efficace, une allocation des ressources et une gestion granulaire des charges de travail agent-environnement. MegaFlow abstrait l'infrastructure d'entraînement des agents en trois services indépendants (Service de Modèles, Service d'Agents et Service d'Environnement) qui interagissent via des interfaces unifiées, permettant une mise à l'échelle indépendante et une allocation flexible des ressources sur diverses configurations agent-environnement. Dans nos déploiements d'entraînement d'agents, MegaFlow orchestre avec succès des dizaines de milliers de tâches agent concurrentes tout en maintenant une stabilité système élevée et en atteignant une utilisation efficace des ressources. En permettant un tel entraînement d'agents à grande échelle, MegaFlow comble une lacune infrastructurelle critique dans le paysage émergent de l'IA agentique.
English
The rapid development of interactive and autonomous AI systems signals our entry into the agentic era. Training and evaluating agents on complex agentic tasks such as software engineering and computer use requires not only efficient model computation but also sophisticated infrastructure capable of coordinating vast agent-environment interactions. However, no open-source infrastructure can effectively support large-scale training and evaluation on such complex agentic tasks. To address this challenge, we present MegaFlow, a large-scale distributed orchestration system that enables efficient scheduling, resource allocation, and fine-grained task management for agent-environment workloads. MegaFlow abstracts agent training infrastructure into three independent services (Model Service, Agent Service, and Environment Service) that interact through unified interfaces, enabling independent scaling and flexible resource allocation across diverse agent-environment configurations. In our agent training deployments, MegaFlow successfully orchestrates tens of thousands of concurrent agent tasks while maintaining high system stability and achieving efficient resource utilization. By enabling such large-scale agent training, MegaFlow addresses a critical infrastructure gap in the emerging agentic AI landscape.
PDF233February 7, 2026