Chat2Workflow: Ein Benchmark zur Erstellung ausführbarer visueller Workflows mit natürlicher Sprache

Zusammenfassung

Derzeit haben sich ausführbare visuelle Workflows als ein Mainstream-Paradigma in industriellen Praxisumgebungen etabliert, die hohe Zuverlässigkeit und Kontrollierbarkeit bieten. In der aktuellen Praxis werden solche Workflows jedoch nahezu vollständig durch manuelle Engineering-Arbeit erstellt: Entwickler müssen Workflows sorgfältig entwerfen, Prompts für jeden Schritt verfassen und die Logik bei sich ändernden Anforderungen wiederholt überarbeiten – was die Entwicklung kostspielig, zeitaufwändig und fehleranfällig macht. Um zu untersuchen, ob große Sprachmodelle diesen mehrstufigen Interaktionsprozess automatisieren können, stellen wir Chat2Workflow vor, einen Benchmark zur Generierung ausführbarer visueller Workflows direkt aus natürlicher Sprache, und schlagen einen robusten agentenbasierten Rahmen vor, um wiederkehrende Ausführungsfehler zu minimieren. Chat2Workflow basiert auf einer umfangreichen Sammlung realer Geschäftsworkflows, wobei jede Instanz so gestaltet ist, dass der generierte Workflow transformiert und direkt auf praktischen Workflow-Plattformen wie Dify und Coze eingesetzt werden kann. Experimentelle Ergebnisse zeigen, dass state-of-the-art-Sprachmodelle zwar häufig die grundlegende Intention erfassen, jedoch Schwierigkeiten haben, korrekte, stabile und ausführbare Workflows zu generieren – insbesondere bei komplexen oder sich ändernden Anforderungen. Obwohl unser agentenbasierter Rahmen Verbesserungen der Lösungsrate von bis zu 5,34 % erzielt, bleibt eine erhebliche Praxislücke, die Chat2Workflow als Grundlage für die Weiterentwicklung industrietauglicher Automatisierung positioniert. Der Code ist verfügbar unter https://github.com/zjunlp/Chat2Workflow.

English

At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.

Chat2Workflow: Ein Benchmark zur Erstellung ausführbarer visueller Workflows mit natürlicher Sprache

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Zusammenfassung

Support