ComfyUI-R1: Untersuchung von Reasoning-Modellen zur Workflow-Generierung
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
June 11, 2025
Autoren: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Zusammenfassung
KI-generierte Inhalte haben sich von monolithischen Modellen zu modularen Workflows entwickelt, insbesondere auf Plattformen wie ComfyUI, was eine Anpassung in kreativen Pipelines ermöglicht. Die Erstellung effektiver Workflows erfordert jedoch großes Fachwissen, um zahlreiche spezialisierte Komponenten zu orchestrieren, was für Benutzer eine steile Lernkurve darstellt. Um diese Herausforderung zu bewältigen, stellen wir ComfyUI-R1 vor, das erste große Reasoning-Modell zur automatisierten Workflow-Generierung. Ausgehend von unserem kuratierten Datensatz mit 4K Workflows konstruieren wir lange Chain-of-Thought (CoT) Reasoning-Daten, einschließlich Knotenauswahl, Workflow-Planung und codebasierter Workflow-Darstellung. ComfyUI-R1 wird durch ein zweistufiges Framework trainiert: (1) CoT-Feintuning für den Kaltstart, um Modelle an die ComfyUI-Domäne anzupassen; (2) Verstärkungslernen zur Förderung der Reasoning-Fähigkeit, geleitet durch eine fein abgestimmte Regel-Metrik-Hybrid-Belohnung, die die Formatvalidität, strukturelle Integrität und Knotenebenen-Treue sicherstellt. Experimente zeigen, dass unser 7B-Parameter-Modell eine Formatvaliditätsrate von 97 % erreicht, zusammen mit hohen Passraten, Knotenebenen- und Graphenebenen-F1-Scores, was frühere state-of-the-art-Methoden, die führende Closed-Source-Modelle wie GPT-4o und die Claude-Serie verwenden, deutlich übertrifft. Weitere Analysen unterstreichen die entscheidende Rolle des Reasoning-Prozesses und den Vorteil der Transformation von Workflows in Code. Qualitative Vergleiche zeigen unsere Stärke bei der Synthese komplexer Workflows mit diversen Knoten und unterstreichen das Potenzial von langen CoT-Reasoning-Prozessen in der KI-Kunstschaffung.
English
AI-generated content has evolved from monolithic models to modular workflows,
particularly on platforms like ComfyUI, enabling customization in creative
pipelines. However, crafting effective workflows requires great expertise to
orchestrate numerous specialized components, presenting a steep learning curve
for users. To address this challenge, we introduce ComfyUI-R1, the first large
reasoning model for automated workflow generation. Starting with our curated
dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning
data, including node selection, workflow planning, and code-level workflow
representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT
fine-tuning for cold start, adapting models to the ComfyUI domain; (2)
reinforcement learning for incentivizing reasoning capability, guided by a
fine-grained rule-metric hybrid reward, ensuring format validity, structural
integrity, and node-level fidelity. Experiments show that our 7B-parameter
model achieves a 97\% format validity rate, along with high pass rate,
node-level and graph-level F1 scores, significantly surpassing prior
state-of-the-art methods that employ leading closed-source models such as
GPT-4o and Claude series. Further analysis highlights the critical role of the
reasoning process and the advantage of transforming workflows into code.
Qualitative comparison reveals our strength in synthesizing intricate workflows
with diverse nodes, underscoring the potential of long CoT reasoning in AI art
creation.