AgensFlow: um substrato de política de coordenação para sistemas multiagentes

Resumo

Sistemas multiagente construídos sobre grandes modelos de linguagem (LLMs) exigem muitas escolhas de coordenação que são difíceis de fixar a priori: qual protocolo de habilidade invocar, qual função de agente deve executar uma subtarefa, qual modelo vincular a cada função, como as funções devem interagir, quando usar recuperação ou verificação, e quando omitir completamente uma etapa. Essas escolhas interagem com o regime de tarefas e as restrições operacionais, de modo que pipelines estáticos e comparações pontuais de modelos oferecem apenas uma visão limitada do espaço de projeto. Este artigo introduz o AgensFlow, uma estrutura de código aberto que trata a coordenação multiagente como um problema de aprendizado de políticas online sob observabilidade parcial. A estrutura torna as escolhas de coordenação observáveis e passíveis de aprendizado a partir de trajetórias repetidas, em vez de tratar habilidade, função, modelo, topologia e avaliação como elementos fixos do projeto do pipeline. O AgensFlow é avaliado em dois corpora: tarefas de incidentes em sistemas distribuídos e tarefas de consultorias de segurança. A avaliação mostra três resultados principais: o roteamento aprendido atinge um ponto operacional de maior qualidade do que um pipeline fixo de base em classes com alta demanda de coordenação; skip:X isola a compressão de topologia como uma parte significativa do substrato; e gráficos de política inicializados a quente podem reduzir o custo de exploração enquanto preservam a qualidade do platô. No geral, os resultados indicam que o roteamento aprendido e auditável pode melhorar fluxos de trabalho multiagente com alta demanda de coordenação em relação à fiação estática.

English

Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill protocol to invoke, which agent role should perform a subtask, which model to bind to each role, how roles should interact, when to use retrieval or verification, and when to omit a step entirely. These choices interact with task regime and operational constraints, so static pipelines and one-off model comparisons provide only a limited view of the design space. This paper introduces AgensFlow, an open-source framework that treats multi-agent coordination as an online policy-learning problem under partial observability. The framework makes coordination decisions observable and learnable from repeated trajectories, rather than treating skill, role, model, topology, and evaluation choices as fixed pipeline design. AgensFlow is evaluated on two corpora: distributed-systems incident tasks and security-advisory tasks. The evaluation shows three main results: learned routing reaches a higher-quality operating point than a fixed pipeline baseline on coordination-heavy classes; skip:X isolates topology compression as a meaningful part of the substrate; and warm-started policy graphs can reduce exploration cost while preserving plateau quality. Overall, the results support that learned, auditable routing can improve coordination-heavy multi-agent workflows over static wiring.