FlowCompile: Um Compilador Otimizador para Fluxos de Trabalho Estruturados de LLM

Resumo

Fluxos de trabalho LLM estruturados, nos quais subagentes LLM especializados executam de acordo com um grafo predefinido, tornaram-se uma abstração poderosa para resolver tarefas complexas. Otimizar tais fluxos de trabalho — isto é, selecionar configurações para cada subagente de modo a equilibrar precisão e latência — é desafiador devido ao espaço de projeto combinatorial sobre escolhas de modelos, orçamentos de raciocínio e estruturas de fluxo de trabalho. Métodos existentes cientes de custo tratam, em grande parte, a otimização de fluxos de trabalho como um problema de roteamento, selecionando uma configuração no momento da inferência para cada consulta de acordo com o objetivo de precisão-latência utilizado durante o treinamento. Argumentamos que fluxos de trabalho LLM estruturados também podem ser otimizados sob uma perspectiva de compilação: antes da implantação, o sistema pode explorar globalmente o espaço de projeto do fluxo de trabalho e construir um conjunto reutilizável de configurações em nível de fluxo de trabalho abrangendo diversos compromissos entre precisão e latência. Inspirando-nos em compiladores de aprendizado de máquina, apresentamos o FlowCompile, um compilador de fluxos de trabalho LLM estruturados que realiza exploração do espaço de projeto em tempo de compilação para identificar um conjunto de compromissos de alta qualidade e reutilizável. O FlowCompile decompõe um fluxo de trabalho em subagentes, coleta o perfil de cada subagente sob diversas configurações e compõe essas medições por meio de um proxy ciente da estrutura para estimar a precisão e a latência em nível de fluxo de trabalho. Em seguida, identifica diversas configurações de alta qualidade em uma única passagem em tempo de compilação, sem necessidade de retreinamento ou adaptação online. Experimentos em diversos fluxos de trabalho e benchmarks desafiadores mostram que o FlowCompile supera consistentemente configurações de fluxo de trabalho otimizadas heuristicamente e linhas de base baseadas em roteamento, proporcionando aceleração de até 6,4x. O conjunto de configurações compiladas serve ainda como um artefato de otimização reutilizável, permitindo implantação flexível sob preferências variáveis de tempo de execução e apoiando seleção ou roteamento a jusante.

English

Structured LLM workflows, where specialized LLM sub-agents execute according to a predefined graph, have become a powerful abstraction for solving complex tasks. Optimizing such workflows, i.e., selecting configurations for each sub-agent to balance accuracy and latency, is challenging due to the combinatorial design space over model choices, reasoning budgets, and workflow structures. Existing cost-aware methods largely treat workflow optimization as a routing problem, selecting a configuration at inference time for each query according to the accuracy-latency objective used during training. We argue that structured LLM workflows can also be optimized from a compilation perspective: before deployment, the system can globally explore the workflow design space and construct a reusable set of workflow-level configurations spanning diverse accuracy-latency trade-offs. Drawing inspiration from machine learning compilers, we introduce FlowCompile, a structured LLM workflow compiler that performs compile-time design space exploration to identify a high-quality, reusable trade-off set. FlowCompile decomposes a workflow into sub-agents, profiles each sub-agent under diverse configurations, and composes these measurements through a structure-aware proxy to estimate workflow-level accuracy and latency. It then identifies diverse high-quality configurations in a single compile-time pass, without retraining or online adaptation. Experiments across diverse workflows and challenging benchmarks show that FlowCompile consistently outperforms heuristically optimized workflow configurations and routing-based baselines, delivering up to 6.4x speedup. The compiled configuration set further serves as a reusable optimization artifact, enabling flexible deployment under varying runtime preferences and supporting downstream selection or routing.