AgensFlow: Un Sustrato de Política de Coordinación para Sistemas Multi-Agente

Resumen

Los sistemas multiagente construidos sobre modelos de lenguaje de gran escala (LLMs) requieren numerosas decisiones de coordinación que son difíciles de fijar a priori: qué protocolo de habilidad invocar, qué rol de agente debe realizar una subtarea, qué modelo asignar a cada rol, cómo deben interactuar los roles, cuándo recurrir a la recuperación o verificación, y cuándo omitir un paso por completo. Estas decisiones interactúan con el régimen de tareas y las restricciones operativas, por lo que los pipelines estáticos y las comparaciones puntuales de modelos ofrecen solo una visión limitada del espacio de diseño. Este artículo presenta AgensFlow, un marco de código abierto que trata la coordinación multiagente como un problema de aprendizaje de políticas en línea bajo observabilidad parcial. El marco hace que las decisiones de coordinación sean observables y aprendibles a partir de trayectorias repetidas, en lugar de tratar las elecciones de habilidad, rol, modelo, topología y evaluación como parte de un diseño de pipeline fijo. AgensFlow se evalúa en dos corpus: tareas de incidentes de sistemas distribuidos y tareas de avisos de seguridad. La evaluación muestra tres resultados principales: el enrutamiento aprendido alcanza un punto operativo de mayor calidad que un pipeline fijo de referencia en clases con alta carga de coordinación; skip:X aísla la compresión de topología como una parte significativa del sustrato; y los grafos de políticas con inicio en caliente pueden reducir el costo de exploración mientras preservan la calidad de meseta. En general, los resultados respaldan que un enrutamiento aprendido y auditable puede mejorar los flujos de trabajo multiagente con alta carga de coordinación en comparación con el cableado estático.

English

Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill protocol to invoke, which agent role should perform a subtask, which model to bind to each role, how roles should interact, when to use retrieval or verification, and when to omit a step entirely. These choices interact with task regime and operational constraints, so static pipelines and one-off model comparisons provide only a limited view of the design space. This paper introduces AgensFlow, an open-source framework that treats multi-agent coordination as an online policy-learning problem under partial observability. The framework makes coordination decisions observable and learnable from repeated trajectories, rather than treating skill, role, model, topology, and evaluation choices as fixed pipeline design. AgensFlow is evaluated on two corpora: distributed-systems incident tasks and security-advisory tasks. The evaluation shows three main results: learned routing reaches a higher-quality operating point than a fixed pipeline baseline on coordination-heavy classes; skip:X isolates topology compression as a meaningful part of the substrate; and warm-started policy graphs can reduce exploration cost while preserving plateau quality. Overall, the results support that learned, auditable routing can improve coordination-heavy multi-agent workflows over static wiring.