AgentSPEX: Язык спецификации и исполнения агентов

Аннотация

Системы агентов на основе языковых моделей обычно используют реактивное prompting, при котором единая инструкция направляет модель через открытую последовательность шагов рассуждений и использования инструментов. Это оставляет поток управления и промежуточное состояние неявными, что потенциально затрудняет контроль за поведением агента. Оркестровые фреймворки, такие как LangGraph, DSPy и CrewAI, накладывают более жесткую структуру за счет явных определений рабочих процессов, но тесно связывают логику workflow с Python, что затрудняет поддержку и модификацию агентов. В данной статье мы представляем AgentSPEX — язык спецификации и исполнения агентов для определения workflow агентов LLM с явным потоком управления и модульной структурой, а также настраиваемый механизм исполнения агентов. AgentSPEX поддерживает типизированные шаги, ветвление и циклы, параллельное выполнение, переиспользуемые подмодули и явное управление состоянием. Эти workflow выполняются в рамках механизма исполнения, который предоставляет доступ к инструментам, изолированную виртуальную среду, а также поддержку контрольных точек, верификации и логирования. Кроме того, мы предоставляем визуальный редактор с синхронизированными представлениями графа и workflow для создания и инспекции. Мы включаем готовых к использованию агентов для углубленного и научного исследования и оцениваем AgentSPEX на 7 бенчмарках. Наконец, мы показываем в ходе пользовательского исследования, что AgentSPEX предлагает более интерпретируемую и доступную парадигму создания workflow по сравнению с популярным существующим фреймворком для агентов.

English

Language-model agent systems commonly rely on reactive prompting, in which a single instruction guides the model through an open-ended sequence of reasoning and tool-use steps, leaving control flow and intermediate state implicit and making agent behavior potentially difficult to control. Orchestration frameworks such as LangGraph, DSPy, and CrewAI impose greater structure through explicit workflow definitions, but tightly couple workflow logic with Python, making agents difficult to maintain and modify. In this paper, we introduce AgentSPEX, an Agent SPecification and EXecution Language for specifying LLM-agent workflows with explicit control flow and modular structure, along with a customizable agent harness. AgentSPEX supports typed steps, branching and loops, parallel execution, reusable submodules, and explicit state management, and these workflows execute within an agent harness that provides tool access, a sandboxed virtual environment, and support for checkpointing, verification, and logging. Furthermore, we provide a visual editor with synchronized graph and workflow views for authoring and inspection. We include ready-to-use agents for deep research and scientific research, and we evaluate AgentSPEX on 7 benchmarks. Finally, we show through a user study that AgentSPEX provides a more interpretable and accessible workflow-authoring paradigm than a popular existing agent framework.

AgentSPEX: Язык спецификации и исполнения агентов

AgentSPEX: An Agent SPecification and EXecution Language

Аннотация

Support