ComfyUI-R1: Onderzoek naar Redeneermodellen voor Workflowgeneratie
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
June 11, 2025
Auteurs: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Samenvatting
AI-gegenereerde inhoud is geëvolueerd van monolithische modellen naar modulaire workflows, met name op platforms zoals ComfyUI, wat maatwerk in creatieve pipelines mogelijk maakt. Het ontwerpen van effectieve workflows vereist echter grote expertise om tal van gespecialiseerde componenten te coördineren, wat een steile leercurve voor gebruikers met zich meebrengt. Om deze uitdaging aan te pakken, introduceren we ComfyUI-R1, het eerste grote redeneermodel voor geautomatiseerde workflowgeneratie. Beginnend met onze gecureerde dataset van 4K workflows, construeren we lange ketens van gedachten (CoT) redeneerdata, inclusief nodeselectie, workflowplanning en code-level workflowrepresentatie. ComfyUI-R1 wordt getraind via een tweestapsraamwerk: (1) CoT fine-tuning voor een koude start, waarbij modellen worden aangepast aan het ComfyUI-domein; (2) reinforcement learning om de redeneercapaciteit te stimuleren, geleid door een fijnmazige regel-metriek hybride beloning, die de geldigheid van het formaat, structurele integriteit en node-level trouw waarborgt. Experimenten tonen aan dat ons 7B-parameter model een formaatgeldigheidspercentage van 97\% bereikt, samen met hoge slagingspercentages, node-level en graph-level F1-scores, wat aanzienlijk beter is dan eerdere state-of-the-art methoden die gebruikmaken van toonaangevende closed-source modellen zoals GPT-4o en de Claude-serie. Verdere analyse benadrukt de cruciale rol van het redeneerproces en het voordeel van het omzetten van workflows in code. Kwalitatieve vergelijking toont onze kracht in het synthetiseren van ingewikkelde workflows met diverse nodes, wat het potentieel van lange CoT-redenering in AI-kunstcreatie onderstreept.
English
AI-generated content has evolved from monolithic models to modular workflows,
particularly on platforms like ComfyUI, enabling customization in creative
pipelines. However, crafting effective workflows requires great expertise to
orchestrate numerous specialized components, presenting a steep learning curve
for users. To address this challenge, we introduce ComfyUI-R1, the first large
reasoning model for automated workflow generation. Starting with our curated
dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning
data, including node selection, workflow planning, and code-level workflow
representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT
fine-tuning for cold start, adapting models to the ComfyUI domain; (2)
reinforcement learning for incentivizing reasoning capability, guided by a
fine-grained rule-metric hybrid reward, ensuring format validity, structural
integrity, and node-level fidelity. Experiments show that our 7B-parameter
model achieves a 97\% format validity rate, along with high pass rate,
node-level and graph-level F1 scores, significantly surpassing prior
state-of-the-art methods that employ leading closed-source models such as
GPT-4o and Claude series. Further analysis highlights the critical role of the
reasoning process and the advantage of transforming workflows into code.
Qualitative comparison reveals our strength in synthesizing intricate workflows
with diverse nodes, underscoring the potential of long CoT reasoning in AI art
creation.