ChatPaper.aiChatPaper

AgentSPEX: 에이전트 명세 및 실행 언어

AgentSPEX: An Agent SPecification and EXecution Language

April 14, 2026
저자: Pengcheng Wang, Jerry Huang, Jiarui Yao, Rui Pan, Peizhi Niu, Yaowenqi Liu, Ruida Wang, Renhao Lu, Yuwei Guo, Tong Zhang
cs.AI

초록

언어 모델 에이전트 시스템은 일반적으로 반응형 프롬프팅에 의존하는데, 이는 단일 명령어로 모델이 개방형 추론 및 도구 사용 단계를 수행하도록 유도합니다. 이로 인해 제어 흐름과 중간 상태가 암시적으로 남아 에이전트 동작을 제어하기 어려울 수 있습니다. LangGraph, DSPy, CrewAI와 같은 오케스트레이션 프레임워크는 명시적 워크플로 정의를 통해 구조를 강화하지만, 워크플로 로직을 Python에 밀접하게 결합하여 에이전트 유지보수와 수정이 어렵습니다. 본 논문에서는 명시적 제어 흐름과 모듈식 구조를 갖춘 LLM 에이전트 워크플로를 정의하기 위한 AgentSPEX(에이전트 명세 및 실행 언어)와 사용자 정의 가능한 에이전트 하네스를 소개합니다. AgentSPEX는 타입 지정 단계, 분기 및 반복, 병렬 실행, 재사용 가능한 하위 모듈, 명시적 상태 관리를 지원하며, 이러한 워크플로는 도구 접근, 샌드박스 가상 환경, 체크포인팅, 검증, 로깅을 제공하는 에이전트 하네스 내에서 실행됩니다. 또한 저자는 그래프와 워크플로 뷰가 동기화된 시각적 편집기를 통해 작성 및 검사 기능을 제공합니다. 딥 리서치 및 과학적 연구를 위한 즉시 사용 가능한 에이전트를 포함하며, 7개 벤치마크에서 AgentSPEX를 평가합니다. 마지막으로 사용자 연구를 통해 AgentSPEX가 기존 인기 에이전트 프레임워크보다 해석 가능성과 접근성이 뛰어난 워크플로 작성 패러다임을 제공함을 입증합니다.
English
Language-model agent systems commonly rely on reactive prompting, in which a single instruction guides the model through an open-ended sequence of reasoning and tool-use steps, leaving control flow and intermediate state implicit and making agent behavior potentially difficult to control. Orchestration frameworks such as LangGraph, DSPy, and CrewAI impose greater structure through explicit workflow definitions, but tightly couple workflow logic with Python, making agents difficult to maintain and modify. In this paper, we introduce AgentSPEX, an Agent SPecification and EXecution Language for specifying LLM-agent workflows with explicit control flow and modular structure, along with a customizable agent harness. AgentSPEX supports typed steps, branching and loops, parallel execution, reusable submodules, and explicit state management, and these workflows execute within an agent harness that provides tool access, a sandboxed virtual environment, and support for checkpointing, verification, and logging. Furthermore, we provide a visual editor with synchronized graph and workflow views for authoring and inspection. We include ready-to-use agents for deep research and scientific research, and we evaluate AgentSPEX on 7 benchmarks. Finally, we show through a user study that AgentSPEX provides a more interpretable and accessible workflow-authoring paradigm than a popular existing agent framework.
PDF492April 23, 2026