ComfyUI-R1: Explorando Modelos de Raciocínio para Geração de Fluxos de Trabalho
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
June 11, 2025
Autores: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Resumo
O conteúdo gerado por IA evoluiu de modelos monolíticos para fluxos de trabalho modulares, especialmente em plataformas como o ComfyUI, permitindo personalização em pipelines criativos. No entanto, a criação de fluxos de trabalho eficazes requer grande expertise para orquestrar diversos componentes especializados, apresentando uma curva de aprendizado acentuada para os usuários. Para enfrentar esse desafio, introduzimos o ComfyUI-R1, o primeiro modelo de raciocínio em larga escala para geração automatizada de fluxos de trabalho. Começando com nosso conjunto de dados curado de 4K fluxos de trabalho, construímos dados de raciocínio em cadeia longa (CoT), incluindo seleção de nós, planejamento de fluxo de trabalho e representação de fluxo de trabalho em nível de código. O ComfyUI-R1 é treinado por meio de um framework de duas etapas: (1) ajuste fino de CoT para início a frio, adaptando modelos ao domínio do ComfyUI; (2) aprendizado por reforço para incentivar a capacidade de raciocínio, guiado por uma recompensa híbrida de regra-métrica de granularidade fina, garantindo validade de formato, integridade estrutural e fidelidade em nível de nó. Experimentos mostram que nosso modelo de 7 bilhões de parâmetros alcança uma taxa de validade de formato de 97%, juntamente com alta taxa de aprovação, pontuações F1 em nível de nó e gráfico, superando significativamente métodos anteriores de ponta que empregam modelos proprietários líderes, como GPT-4o e a série Claude. Análises adicionais destacam o papel crítico do processo de raciocínio e a vantagem de transformar fluxos de trabalho em código. Comparações qualitativas revelam nossa força na síntese de fluxos de trabalho intrincados com diversos nós, ressaltando o potencial do raciocínio CoT longo na criação de arte por IA.
English
AI-generated content has evolved from monolithic models to modular workflows,
particularly on platforms like ComfyUI, enabling customization in creative
pipelines. However, crafting effective workflows requires great expertise to
orchestrate numerous specialized components, presenting a steep learning curve
for users. To address this challenge, we introduce ComfyUI-R1, the first large
reasoning model for automated workflow generation. Starting with our curated
dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning
data, including node selection, workflow planning, and code-level workflow
representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT
fine-tuning for cold start, adapting models to the ComfyUI domain; (2)
reinforcement learning for incentivizing reasoning capability, guided by a
fine-grained rule-metric hybrid reward, ensuring format validity, structural
integrity, and node-level fidelity. Experiments show that our 7B-parameter
model achieves a 97\% format validity rate, along with high pass rate,
node-level and graph-level F1 scores, significantly surpassing prior
state-of-the-art methods that employ leading closed-source models such as
GPT-4o and Claude series. Further analysis highlights the critical role of the
reasoning process and the advantage of transforming workflows into code.
Qualitative comparison reveals our strength in synthesizing intricate workflows
with diverse nodes, underscoring the potential of long CoT reasoning in AI art
creation.