Chat2Workflow: Un Punto de Referencia para Generar Flujos de Trabajo Visuales Ejecutables con Lenguaje Natural

Resumen

Actualmente, los flujos de trabajo visuales ejecutables han surgido como un paradigma principal en los despliegues industriales del mundo real, ofreciendo una gran fiabilidad y controlabilidad. Sin embargo, en la práctica actual, estos flujos de trabajo se construyen casi en su totalidad mediante ingeniería manual: los desarrolladores deben diseñar cuidadosamente los flujos, escribir instrucciones para cada paso y revisar repetidamente la lógica a medida que evolucionan los requisitos, lo que hace que el desarrollo sea costoso, requiera mucho tiempo y propenso a errores. Para estudiar si los modelos de lenguaje grandes pueden automatizar este proceso de interacción multi-ronda, presentamos Chat2Workflow, un benchmark para generar flujos de trabajo visuales ejecutables directamente a partir del lenguaje natural, y proponemos un marco agente robusto para mitigar los errores de ejecución recurrentes. Chat2Workflow se construye a partir de una gran colección de flujos de trabajo empresariales reales, donde cada instancia está diseñada para que el flujo generado pueda transformarse y desplegarse directamente en plataformas prácticas como Dify y Coze. Los resultados experimentales muestran que, aunque los modelos de lenguaje más avanzados a menudo captan la intención de alto nivel, tienen dificultades para generar flujos de trabajo correctos, estables y ejecutables, especialmente bajo requisitos complejos o cambiantes. Aunque nuestro marco agente produce ganancias de hasta un 5.34% en la tasa de resolución, la brecha restante con el mundo real posiciona a Chat2Workflow como una base para avanzar en la automatización de grado industrial. El código está disponible en https://github.com/zjunlp/Chat2Workflow.

English

At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.

Chat2Workflow: Un Punto de Referencia para Generar Flujos de Trabajo Visuales Ejecutables con Lenguaje Natural

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Resumen

Support