ChatPaper.aiChatPaper

Chat2Workflow: Бенчмарк для генерации исполняемых визуальных рабочих процессов с помощью естественного языка

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

April 21, 2026
Авторы: Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang
cs.AI

Аннотация

В настоящее время исполняемые визуальные рабочие процессы стали основной парадигмой в реальных промышленных развертываниях, предлагая высокую надежность и управляемость. Однако в текущей практике такие рабочие процессы почти полностью создаются с помощью ручного проектирования: разработчики должны тщательно проектировать рабочие процессы, писать промпты для каждого шага и многократно пересматривать логику по мере изменения требований, что делает разработку дорогостоящей, трудоемкой и подверженной ошибкам. Чтобы исследовать, могут ли большие языковые модели автоматизировать этот многошаговый интерактивный процесс, мы представляем Chat2Workflow — бенчмарк для генерации исполняемых визуальных рабочих процессов непосредственно из естественного языка, а также предлагаем надежную агентскую структуру для снижения повторяющихся ошибок выполнения. Chat2Workflow построен на основе большой коллекции реальных бизнес-процессов, где каждый экземпляр спроектирован так, что сгенерированный рабочий процесс может быть преобразован и напрямую развернут на практических платформах, таких как Dify и Coze. Результаты экспериментов показывают, что хотя современные языковые модели часто способны улавливать общие намерения, они испытывают трудности с генерацией корректных, стабильных и исполняемых рабочих процессов, особенно в условиях сложных или изменяющихся требований. Несмотря на то, что наша агентская структура обеспечивает повышение уровня разрешения ошибок до 5,34%, сохраняющийся разрыв с реальными требованиями позиционирует Chat2Workflow как основу для развития промышленной автоматизации. Код доступен по адресу https://github.com/zjunlp/Chat2Workflow.
English
At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.
PDF132April 23, 2026