ComfyUI-R1: Esplorazione di modelli di ragionamento per la generazione di flussi di lavoro
ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
June 11, 2025
Autori: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI
Abstract
Il contenuto generato dall'IA è evoluto da modelli monolitici a flussi di lavoro modulari, in particolare su piattaforme come ComfyUI, consentendo la personalizzazione nelle pipeline creative. Tuttavia, la creazione di flussi di lavoro efficaci richiede una grande esperienza per orchestrare numerosi componenti specializzati, presentando una curva di apprendimento ripida per gli utenti. Per affrontare questa sfida, introduciamo ComfyUI-R1, il primo modello di ragionamento su larga scala per la generazione automatica di flussi di lavoro. Partendo dal nostro dataset curato di 4K flussi di lavoro, costruiamo dati di ragionamento a catena lunga (CoT), inclusa la selezione dei nodi, la pianificazione del flusso di lavoro e la rappresentazione del flusso di lavoro a livello di codice. ComfyUI-R1 viene addestrato attraverso un framework a due fasi: (1) fine-tuning CoT per l'avvio a freddo, adattando i modelli al dominio ComfyUI; (2) apprendimento per rinforzo per incentivare la capacità di ragionamento, guidato da una ricompensa ibrida regola-metrica fine, garantendo la validità del formato, l'integrità strutturale e la fedeltà a livello di nodo. Gli esperimenti mostrano che il nostro modello da 7 miliardi di parametri raggiunge un tasso di validità del formato del 97%, insieme a un alto tasso di successo, punteggi F1 a livello di nodo e di grafo, superando significativamente i precedenti metodi all'avanguardia che impiegano modelli proprietari leader come GPT-4o e la serie Claude. Un'ulteriore analisi evidenzia il ruolo cruciale del processo di ragionamento e il vantaggio di trasformare i flussi di lavoro in codice. Il confronto qualitativo rivela la nostra forza nella sintesi di flussi di lavoro intricati con nodi diversificati, sottolineando il potenziale del ragionamento CoT lungo nella creazione artistica basata sull'IA.
English
AI-generated content has evolved from monolithic models to modular workflows,
particularly on platforms like ComfyUI, enabling customization in creative
pipelines. However, crafting effective workflows requires great expertise to
orchestrate numerous specialized components, presenting a steep learning curve
for users. To address this challenge, we introduce ComfyUI-R1, the first large
reasoning model for automated workflow generation. Starting with our curated
dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning
data, including node selection, workflow planning, and code-level workflow
representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT
fine-tuning for cold start, adapting models to the ComfyUI domain; (2)
reinforcement learning for incentivizing reasoning capability, guided by a
fine-grained rule-metric hybrid reward, ensuring format validity, structural
integrity, and node-level fidelity. Experiments show that our 7B-parameter
model achieves a 97\% format validity rate, along with high pass rate,
node-level and graph-level F1 scores, significantly surpassing prior
state-of-the-art methods that employ leading closed-source models such as
GPT-4o and Claude series. Further analysis highlights the critical role of the
reasoning process and the advantage of transforming workflows into code.
Qualitative comparison reveals our strength in synthesizing intricate workflows
with diverse nodes, underscoring the potential of long CoT reasoning in AI art
creation.