AgensFlow: Субстрат для политик координации в мультиагентных системах

Аннотация

Мультиагентные системы, построенные на больших языковых моделях (LLM), требуют множества координационных решений, которые трудно определить априори: какой протокол навыков вызывать, какую роль агента должна выполнять подзадачу, какую модель привязать к каждой роли, как роли должны взаимодействовать, когда использовать поиск или верификацию, а когда вовсе пропустить шаг. Эти решения взаимодействуют с режимом задачи и операционными ограничениями, поэтому статические конвейеры и разовые сравнения моделей дают лишь ограниченное представление о пространстве проектирования. В данной статье представлен AgensFlow — фреймворк с открытым исходным кодом, который рассматривает мультиагентную координацию как задачу онлайн-обучения политике в условиях частичной наблюдаемости. Фреймворк делает координационные решения наблюдаемыми и обучаемыми на основе повторяющихся траекторий, а не рассматривает навык, роль, модель, топологию и оценочные решения как фиксированную конструкцию конвейера. AgensFlow оценивается на двух корпусах: задачах инцидентов распределенных систем и задачах, связанных с рекомендациями по безопасности. Оценка показывает три основных результата: обученная маршрутизация достигает более высокого качества работы по сравнению с фиксированным конвейером в классах с высокой координацией; skip:X выделяет сжатие топологии как значимую часть платформы; а теплый старт графов политик может снизить затраты на исследование, сохраняя качество плато. В целом, результаты подтверждают, что обучаемая и аудируемая маршрутизация может улучшить мультиагентные рабочие процессы с высокой координацией по сравнению со статической проводкой.

English

Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill protocol to invoke, which agent role should perform a subtask, which model to bind to each role, how roles should interact, when to use retrieval or verification, and when to omit a step entirely. These choices interact with task regime and operational constraints, so static pipelines and one-off model comparisons provide only a limited view of the design space. This paper introduces AgensFlow, an open-source framework that treats multi-agent coordination as an online policy-learning problem under partial observability. The framework makes coordination decisions observable and learnable from repeated trajectories, rather than treating skill, role, model, topology, and evaluation choices as fixed pipeline design. AgensFlow is evaluated on two corpora: distributed-systems incident tasks and security-advisory tasks. The evaluation shows three main results: learned routing reaches a higher-quality operating point than a fixed pipeline baseline on coordination-heavy classes; skip:X isolates topology compression as a meaningful part of the substrate; and warm-started policy graphs can reduce exploration cost while preserving plateau quality. Overall, the results support that learned, auditable routing can improve coordination-heavy multi-agent workflows over static wiring.