Chat2Workflow: Een Benchmark voor het Genereren van Uitvoerbare Visuele Workflows met Natuurlijke Taal

Samenvatting

Momenteel vormen uitvoerbare visuele workflows een mainstream paradigma in praktische industriële implementaties, dankzij hun sterke betrouwbaarheid en beheersbaarheid. In de huidige praktijk worden dergelijke workflows echter vrijwel volledig handmatig geconstrueerd: ontwikkelaars moeten workflows zorgvuldig ontwerpen, prompts voor elke stap schrijven en de logica herhaaldelijk herzien naarmate vereisten evolueren. Dit maakt de ontwikkeling kostbaar, tijdrovend en foutgevoelig. Om te onderzoeken of grote taalmodellen dit meerronde interactieproces kunnen automatiseren, introduceren wij Chat2Workflow, een benchmark voor het direct genereren van uitvoerbare visuele workflows vanuit natuurlijke taal, en stellen een robuust agentframework voor om terugkerende uitvoeringsfouten te verminderen. Chat2Workflow is opgebouwd uit een grote verzameling real-world bedrijfsworkflows, waarbij elke instantie zo is ontworpen dat de gegenereerde workflow getransformeerd en direct geïmplementeerd kan worden op praktische workflowplatforms zoals Dify en Coze. Experimentele resultaten tonen aan dat state-of-the-art taalmodellen weliswaar vaak de hoogover intentie kunnen vastleggen, maar moeite hebben met het genereren van correcte, stabiele en uitvoerbare workflows, vooral onder complexe of veranderende vereisten. Hoewel ons agentframework tot 5,34% verbetering in oplossingspercentage oplevert, positioneert de resterende real-world kloof Chat2Workflow als een fundament voor het bevorderen van industriële automatisering. Code is beschikbaar op https://github.com/zjunlp/Chat2Workflow.

English

At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.

Chat2Workflow: Een Benchmark voor het Genereren van Uitvoerbare Visuele Workflows met Natuurlijke Taal

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Samenvatting

Support