Chat2Workflow: 자연어로 실행 가능한 시각적 워크플로우 생성을 위한 벤치마크
Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language
April 21, 2026
저자: Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang
cs.AI
초록
현재 실행 가능한 비주얼 워크플로우는 실제 산업 현장에서 주류 패러다임으로 자리 잡아 강력한 신뢰성과 제어 가능성을 제공하고 있습니다. 그러나 현행 방식에서는 이러한 워크플로우가 거의 전적으로 수동 엔지니어링을 통해 구축됩니다. 개발자는 워크플로우를 신중하게 설계하고, 각 단계별 프롬프트를 작성하며, 요구사항 변화에 따라 논리를 반복적으로 수정해야 하므로 개발 비용과 시간이 많이 소모되고 오류 발생 가능성도 높습니다. 대규모 언어 모델이 이러한 다중 라운드 상호작용 과정을 자동화할 수 있는지 연구하기 위해, 우리는 자연어에서 직접 실행 가능한 비주얼 워크플로우를 생성하는 벤치마크인 Chat2Workflow를 도입하고 반복적 실행 오류를 완화하기 위한 강력한 에이전트 프레임워크를 제안합니다. Chat2Workflow는 대규모 실제 비즈니스 워크플로우 컬렉션으로 구축되었으며, 생성된 워크플로우가 Dify나 Coze 같은 실전 워크플로우 플랫폼에서 변환 및 직접 배포 가능하도록 각 인스턴스가 설계되었습니다. 실험 결과에 따르면, 최첨단 언어 모델이 높은 수준의 사용자 의도를 종종 파악할 수는 있지만 특히 복잡하거나 변화하는 요구사항 하에서 정확하고 안정적이며 실행 가능한 워크플로우를 생성하는 데 어려움을 겪습니다. 우리의 에이전트 프레임워크가 최대 5.34%의 문제 해결률 향상을 가져왔음에도 불구하고, 남아있는 현실적 격차는 Chat2Workflow가 산업 등급 자동화 기술 발전을 위한 기반으로 자리매김하도록 합니다. 코드는 https://github.com/zjunlp/Chat2Workflow에서 확인할 수 있습니다.
English
At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.