Chat2Workflow: Un Benchmark per la Generazione di Flussi di Lavoro Visivi Eseguibili con il Linguaggio Naturale

Abstract

Attualmente, i flussi di lavoro visuali eseguibili sono emersi come paradigma dominante nelle implementazioni industriali reali, offrendo elevata affidabilità e controllabilità. Tuttavia, nella pratica corrente, tali flussi di lavoro sono quasi interamente costruiti attraverso ingegneria manuale: gli sviluppatori devono progettare accuratamente i workflow, scrivere prompt per ogni fase e revisionare ripetutamente la logica al mutare dei requisiti, rendendo lo sviluppo costoso, dispendioso in termini temporali e soggetto a errori. Per studiare se i grandi modelli linguistici possano automatizzare questo processo interattivo multi-round, introduciamo Chat2Workflow, un benchmark per generare flussi di lavoro visuali eseguibili direttamente dal linguaggio naturale, e proponiamo un framework agente robusto per mitigare errori di esecuzione ricorrenti. Chat2Workflow è costruito a partire da un'ampia raccolta di workflow aziendali reali, con ogni istanza progettata in modo che il flusso generato possa essere trasformato e distribuito direttamente su piattaforme pratiche come Dify e Coze. I risultati sperimentali mostrano che, sebbene i modelli linguistici all'avanguardia possano spesso cogliere l'intento di alto livello, faticano a generare workflow corretti, stabili ed eseguibili, specialmente con requisiti complessi o mutevoli. Sebbene il nostro framework agente produca guadagni fino al 5,34% nel tasso di risoluzione, il gap residuo con scenari reali posiziona Chat2Workflow come base per far progredire l'automazione di grado industriale. Il codice è disponibile su https://github.com/zjunlp/Chat2Workflow.

English

At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.

Chat2Workflow: Un Benchmark per la Generazione di Flussi di Lavoro Visivi Eseguibili con il Linguaggio Naturale

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Abstract

Support