ComfyUI-R1: Exploración de Modelos de Razonamiento para la Generación de Flujos de Trabajo
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
June 11, 2025
Autores: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Resumen
El contenido generado por IA ha evolucionado desde modelos monolíticos hacia flujos de trabajo modulares, particularmente en plataformas como ComfyUI, permitiendo la personalización en pipelines creativos. Sin embargo, diseñar flujos de trabajo efectivos requiere un gran nivel de expertise para orquestar numerosos componentes especializados, lo que presenta una curva de aprendizaje pronunciada para los usuarios. Para abordar este desafío, presentamos ComfyUI-R1, el primer modelo de razonamiento a gran escala para la generación automatizada de flujos de trabajo. Partiendo de nuestro conjunto de datos curado de 4K flujos de trabajo, construimos datos de razonamiento de cadena larga (CoT), incluyendo selección de nodos, planificación de flujos de trabajo y representación de flujos de trabajo a nivel de código. ComfyUI-R1 se entrena mediante un marco de dos etapas: (1) ajuste fino de CoT para arranque en frío, adaptando los modelos al dominio de ComfyUI; (2) aprendizaje por refuerzo para incentivar la capacidad de razonamiento, guiado por una recompensa híbrida de reglas-métricas de grano fino, asegurando la validez del formato, la integridad estructural y la fidelidad a nivel de nodo. Los experimentos muestran que nuestro modelo de 7B parámetros alcanza una tasa de validez de formato del 97\%, junto con altas tasas de aprobación, puntuaciones F1 a nivel de nodo y gráfico, superando significativamente métodos previos de vanguardia que emplean modelos líderes de código cerrado como GPT-4o y la serie Claude. Un análisis adicional destaca el papel crítico del proceso de razonamiento y la ventaja de transformar flujos de trabajo en código. La comparación cualitativa revela nuestra fortaleza en la síntesis de flujos de trabajo intrincados con nodos diversos, subrayando el potencial del razonamiento CoT largo en la creación de arte con IA.
English
AI-generated content has evolved from monolithic models to modular workflows,
particularly on platforms like ComfyUI, enabling customization in creative
pipelines. However, crafting effective workflows requires great expertise to
orchestrate numerous specialized components, presenting a steep learning curve
for users. To address this challenge, we introduce ComfyUI-R1, the first large
reasoning model for automated workflow generation. Starting with our curated
dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning
data, including node selection, workflow planning, and code-level workflow
representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT
fine-tuning for cold start, adapting models to the ComfyUI domain; (2)
reinforcement learning for incentivizing reasoning capability, guided by a
fine-grained rule-metric hybrid reward, ensuring format validity, structural
integrity, and node-level fidelity. Experiments show that our 7B-parameter
model achieves a 97\% format validity rate, along with high pass rate,
node-level and graph-level F1 scores, significantly surpassing prior
state-of-the-art methods that employ leading closed-source models such as
GPT-4o and Claude series. Further analysis highlights the critical role of the
reasoning process and the advantage of transforming workflows into code.
Qualitative comparison reveals our strength in synthesizing intricate workflows
with diverse nodes, underscoring the potential of long CoT reasoning in AI art
creation.