ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de workflows
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
June 11, 2025
Auteurs: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Résumé
Le contenu généré par l'IA a évolué de modèles monolithiques vers des flux de travail modulaires, en particulier sur des plateformes comme ComfyUI, permettant une personnalisation des pipelines créatifs. Cependant, la conception de flux de travail efficaces nécessite une expertise considérable pour orchestrer de nombreux composants spécialisés, ce qui représente une courbe d'apprentissage abrupte pour les utilisateurs. Pour relever ce défi, nous présentons ComfyUI-R1, le premier modèle de raisonnement à grande échelle pour la génération automatisée de flux de travail. En partant de notre jeu de données soigneusement sélectionné de 4 000 flux de travail, nous construisons des données de raisonnement en chaîne de pensée (CoT) étendues, incluant la sélection de nœuds, la planification des flux de travail et la représentation des flux de travail au niveau du code. ComfyUI-R1 est entraîné via un cadre en deux étapes : (1) un ajustement fin CoT pour un démarrage à froid, adaptant les modèles au domaine ComfyUI ; (2) un apprentissage par renforcement pour encourager la capacité de raisonnement, guidé par une récompense hybride basée sur des règles et des métriques fines, garantissant la validité du format, l'intégrité structurelle et la fidélité au niveau des nœuds. Les expériences montrent que notre modèle à 7 milliards de paramètres atteint un taux de validité de format de 97 %, ainsi que des taux de réussite élevés, des scores F1 au niveau des nœuds et des graphes, surpassant significativement les méthodes antérieures de pointe qui utilisent des modèles propriétaires leaders tels que GPT-4o et la série Claude. Une analyse approfondie met en lumière le rôle crucial du processus de raisonnement et l'avantage de transformer les flux de travail en code. Une comparaison qualitative révèle notre force dans la synthèse de flux de travail complexes avec des nœuds diversifiés, soulignant le potentiel du raisonnement CoT étendu dans la création artistique par IA.
English
AI-generated content has evolved from monolithic models to modular workflows,
particularly on platforms like ComfyUI, enabling customization in creative
pipelines. However, crafting effective workflows requires great expertise to
orchestrate numerous specialized components, presenting a steep learning curve
for users. To address this challenge, we introduce ComfyUI-R1, the first large
reasoning model for automated workflow generation. Starting with our curated
dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning
data, including node selection, workflow planning, and code-level workflow
representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT
fine-tuning for cold start, adapting models to the ComfyUI domain; (2)
reinforcement learning for incentivizing reasoning capability, guided by a
fine-grained rule-metric hybrid reward, ensuring format validity, structural
integrity, and node-level fidelity. Experiments show that our 7B-parameter
model achieves a 97\% format validity rate, along with high pass rate,
node-level and graph-level F1 scores, significantly surpassing prior
state-of-the-art methods that employ leading closed-source models such as
GPT-4o and Claude series. Further analysis highlights the critical role of the
reasoning process and the advantage of transforming workflows into code.
Qualitative comparison reveals our strength in synthesizing intricate workflows
with diverse nodes, underscoring the potential of long CoT reasoning in AI art
creation.