ChatPaper.aiChatPaper

Chat2Workflow: 自然言語による実行可能なビジュアルワークフロー生成のベンチマーク

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

April 21, 2026
著者: Yi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang
cs.AI

要旨

現在、実行可能なビジュアルワークフローは実世界の産業導入において主流のパラダイムとして台頭し、高い信頼性と制御性を提供している。しかし、現状ではこのようなワークフローはほぼ完全に手作業によるエンジニアリングで構築されている:開発者はワークフローを注意深く設計し、各ステップのプロンプトを作成し、要件の変化に応じてロジックを繰り返し修正する必要があり、開発コストが高く、時間がかかり、エラーが発生しやすい。大規模言語モデルがこのマルチラウンドの対話プロセスを自動化できるかどうかを研究するため、我々は自然言語から直接実行可能なビジュアルワークフローを生成するベンチマークであるChat2Workflowを導入し、繰り返し発生する実行エラーを軽減する堅牢なエージェントフレームワークを提案する。Chat2Workflowは実世界の業務ワークフローの大規模コレクションから構築され、各インスタンスは生成されたワークフローがDifyやCozeなどの実用的なワークフロープラットフォームに変換して直接デプロイ可能なように設計されている。実験結果は、最先端の言語モデルが高レベルの意図を捉えることができる場合が多いものの、正確で安定した実行可能なワークフロー、特に複雑な要件や変化する要件の下での生成に苦戦することを示している。我々のエージェントフレームワークは最大5.34%の解決率向上をもたらすが、残る実世界との隔たりは、Chat2Workflowが産業グレードの自動化を推進する基盤として位置づけられることを示している。コードはhttps://github.com/zjunlp/Chat2Workflowで公開されている。
English
At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.
PDF132April 23, 2026