AgensFlow : un substrat de politiques de coordination pour les systèmes multi-agents

Résumé

Les systèmes multi-agents basés sur de grands modèles de langage (LLMs) nécessitent de nombreux choix de coordination difficiles à fixer a priori : quel protocole de compétence invoquer, quel rôle d’agent doit exécuter une sous-tâche, quel modèle attribuer à chaque rôle, comment les rôles doivent interagir, quand utiliser la récupération ou la vérification, et quand omettre complètement une étape. Ces choix interagissent avec le régime des tâches et les contraintes opérationnelles, si bien que les pipelines statiques et les comparaisons ponctuelles de modèles n’offrent qu’une vision limitée de l’espace de conception. Cet article présente AgensFlow, un cadre open-source qui traite la coordination multi-agents comme un problème d’apprentissage de politique en ligne sous observabilité partielle. Le cadre rend les choix de coordination observables et apprenables à partir de trajectoires répétées, plutôt que de traiter les choix de compétence, de rôle, de modèle, de topologie et d’évaluation comme des éléments fixes d’un pipeline. AgensFlow est évalué sur deux corpus : des tâches d’incidents de systèmes distribués et des tâches d’avis de sécurité. L’évaluation met en évidence trois résultats principaux : le routage appris atteint un point de fonctionnement de meilleure qualité qu’une baseline de pipeline fixe sur les classes à forte coordination ; skip:X isole la compression de topologie comme une partie significative du substrat ; et les graphes de politique initialisés à chaud peuvent réduire le coût d’exploration tout en préservant la qualité de plateau. Dans l’ensemble, les résultats soutiennent qu’un routage appris et vérifiable peut améliorer les flux de travail multi-agents à forte coordination par rapport à un câblage statique.

English

Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill protocol to invoke, which agent role should perform a subtask, which model to bind to each role, how roles should interact, when to use retrieval or verification, and when to omit a step entirely. These choices interact with task regime and operational constraints, so static pipelines and one-off model comparisons provide only a limited view of the design space. This paper introduces AgensFlow, an open-source framework that treats multi-agent coordination as an online policy-learning problem under partial observability. The framework makes coordination decisions observable and learnable from repeated trajectories, rather than treating skill, role, model, topology, and evaluation choices as fixed pipeline design. AgensFlow is evaluated on two corpora: distributed-systems incident tasks and security-advisory tasks. The evaluation shows three main results: learned routing reaches a higher-quality operating point than a fixed pipeline baseline on coordination-heavy classes; skip:X isolates topology compression as a meaningful part of the substrate; and warm-started policy graphs can reduce exploration cost while preserving plateau quality. Overall, the results support that learned, auditable routing can improve coordination-heavy multi-agent workflows over static wiring.