MegaFlow: Sistema de Orquestração Distribuído em Larga Escala para a Era dos Agentes

Resumo

O rápido desenvolvimento de sistemas de IA interativos e autônomos sinaliza nossa entrada na era agentiva. O treinamento e a avaliação de agentes em tarefas agentivas complexas, como engenharia de software e uso de computador, exigem não apenas computação eficiente de modelos, mas também infraestrutura sofisticada capaz de coordenar vastas interações agente-ambiente. No entanto, nenhuma infraestrutura de código aberto pode apoiar efetivamente o treinamento e a avaliação em larga escala para tais tarefas agentivas complexas. Para enfrentar esse desafio, apresentamos o MegaFlow, um sistema de orquestração distribuído em larga escala que permite o agendamento eficiente, a alocação de recursos e o gerenciamento granular de tarefas para cargas de trabalho agente-ambiente. O MegaFlow abstrai a infraestrutura de treinamento de agentes em três serviços independentes (Serviço de Modelo, Serviço de Agente e Serviço de Ambiente) que interagem por meio de interfaces unificadas, permitindo dimensionamento independente e alocação flexível de recursos em diversas configurações agente-ambiente. Em nossas implantações de treinamento de agentes, o MegaFlow orquestra com sucesso dezenas de milhares de tarefas de agente simultâneas, mantendo alta estabilidade do sistema e alcançando utilização eficiente de recursos. Ao possibilitar esse treinamento de agentes em larga escala, o MegaFlow aborda uma lacuna crítica de infraestrutura no cenário emergente da IA agentiva.

English

The rapid development of interactive and autonomous AI systems signals our entry into the agentic era. Training and evaluating agents on complex agentic tasks such as software engineering and computer use requires not only efficient model computation but also sophisticated infrastructure capable of coordinating vast agent-environment interactions. However, no open-source infrastructure can effectively support large-scale training and evaluation on such complex agentic tasks. To address this challenge, we present MegaFlow, a large-scale distributed orchestration system that enables efficient scheduling, resource allocation, and fine-grained task management for agent-environment workloads. MegaFlow abstracts agent training infrastructure into three independent services (Model Service, Agent Service, and Environment Service) that interact through unified interfaces, enabling independent scaling and flexible resource allocation across diverse agent-environment configurations. In our agent training deployments, MegaFlow successfully orchestrates tens of thousands of concurrent agent tasks while maintaining high system stability and achieving efficient resource utilization. By enabling such large-scale agent training, MegaFlow addresses a critical infrastructure gap in the emerging agentic AI landscape.