ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de workflows

papers.abstract

Le contenu généré par l'IA a évolué de modèles monolithiques vers des flux de travail modulaires, en particulier sur des plateformes comme ComfyUI, permettant une personnalisation des pipelines créatifs. Cependant, la conception de flux de travail efficaces nécessite une expertise considérable pour orchestrer de nombreux composants spécialisés, ce qui représente une courbe d'apprentissage abrupte pour les utilisateurs. Pour relever ce défi, nous présentons ComfyUI-R1, le premier modèle de raisonnement à grande échelle pour la génération automatisée de flux de travail. En partant de notre jeu de données soigneusement sélectionné de 4 000 flux de travail, nous construisons des données de raisonnement en chaîne de pensée (CoT) étendues, incluant la sélection de nœuds, la planification des flux de travail et la représentation des flux de travail au niveau du code. ComfyUI-R1 est entraîné via un cadre en deux étapes : (1) un ajustement fin CoT pour un démarrage à froid, adaptant les modèles au domaine ComfyUI ; (2) un apprentissage par renforcement pour encourager la capacité de raisonnement, guidé par une récompense hybride basée sur des règles et des métriques fines, garantissant la validité du format, l'intégrité structurelle et la fidélité au niveau des nœuds. Les expériences montrent que notre modèle à 7 milliards de paramètres atteint un taux de validité de format de 97 %, ainsi que des taux de réussite élevés, des scores F1 au niveau des nœuds et des graphes, surpassant significativement les méthodes antérieures de pointe qui utilisent des modèles propriétaires leaders tels que GPT-4o et la série Claude. Une analyse approfondie met en lumière le rôle crucial du processus de raisonnement et l'avantage de transformer les flux de travail en code. Une comparaison qualitative révèle notre force dans la synthèse de flux de travail complexes avec des nœuds diversifiés, soulignant le potentiel du raisonnement CoT étendu dans la création artistique par IA.

English

AI-generated content has evolved from monolithic models to modular workflows, particularly on platforms like ComfyUI, enabling customization in creative pipelines. However, crafting effective workflows requires great expertise to orchestrate numerous specialized components, presenting a steep learning curve for users. To address this challenge, we introduce ComfyUI-R1, the first large reasoning model for automated workflow generation. Starting with our curated dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning data, including node selection, workflow planning, and code-level workflow representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT fine-tuning for cold start, adapting models to the ComfyUI domain; (2) reinforcement learning for incentivizing reasoning capability, guided by a fine-grained rule-metric hybrid reward, ensuring format validity, structural integrity, and node-level fidelity. Experiments show that our 7B-parameter model achieves a 97\% format validity rate, along with high pass rate, node-level and graph-level F1 scores, significantly surpassing prior state-of-the-art methods that employ leading closed-source models such as GPT-4o and Claude series. Further analysis highlights the critical role of the reasoning process and the advantage of transforming workflows into code. Qualitative comparison reveals our strength in synthesizing intricate workflows with diverse nodes, underscoring the potential of long CoT reasoning in AI art creation.

ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de workflows

ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

papers.abstract

Support