AgensFlow: een coördinatiebeleidsubstraat voor multi-agent systemen

Samenvatting

Multi-agentsystemen die zijn gebouwd op grote taalmodellen (LLM's) vereisen veel coördinatiekeuzes die moeilijk a priori vast te stellen zijn: welk vaardigheidsprotocol moet worden aangeroepen, welke agentrol moet een deeltaak uitvoeren, welk model moet aan elke rol worden gekoppeld, hoe rollen moeten interacteren, wanneer retrieval of verificatie moet worden gebruikt, en wanneer een stap volledig moet worden overgeslagen. Deze keuzes interacteren met taakregime en operationele beperkingen, dus statische pijplijnen en eenmalige modelvergelijkingen bieden slechts een beperkt beeld van de ontwerpruimte. Dit artikel introduceert AgensFlow, een opensourceframework dat multi-agentcoördinatie behandelt als een online beleidsleerprobleem onder gedeeltelijke waarneembaarheid. Het framework maakt coördinatiebeslissingen waarneembaar en leerbaar op basis van herhaalde trajecten, in plaats van vaardigheids-, rol-, model-, topologie- en evaluatiekeuzes te behandelen als een vast pijplijnontwerp. AgensFlow wordt geëvalueerd op twee corpora: incidenttaken in gedistribueerde systemen en taken voor beveiligingsadviezen. De evaluatie toont drie hoofdresultaten: geleerde routering bereikt een kwalitatief hoger werkpunt dan een statische pijplijnbasislijn op coördinatie-intensieve klassen; skip:X isoleert topologiecompressie als een betekenisvol onderdeel van het substraat; en warmgestarte beleidsgrafieken kunnen de exploratiekosten verlagen terwijl de plateau-kwaliteit behouden blijft. Over het algemeen ondersteunen de resultaten dat geleerde, controleerbare routering coördinatie-intensieve multi-agentworkflows kan verbeteren ten opzichte van statische bedrading.

English

Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill protocol to invoke, which agent role should perform a subtask, which model to bind to each role, how roles should interact, when to use retrieval or verification, and when to omit a step entirely. These choices interact with task regime and operational constraints, so static pipelines and one-off model comparisons provide only a limited view of the design space. This paper introduces AgensFlow, an open-source framework that treats multi-agent coordination as an online policy-learning problem under partial observability. The framework makes coordination decisions observable and learnable from repeated trajectories, rather than treating skill, role, model, topology, and evaluation choices as fixed pipeline design. AgensFlow is evaluated on two corpora: distributed-systems incident tasks and security-advisory tasks. The evaluation shows three main results: learned routing reaches a higher-quality operating point than a fixed pipeline baseline on coordination-heavy classes; skip:X isolates topology compression as a meaningful part of the substrate; and warm-started policy graphs can reduce exploration cost while preserving plateau quality. Overall, the results support that learned, auditable routing can improve coordination-heavy multi-agent workflows over static wiring.