ComfyUI-R1: Esplorazione di modelli di ragionamento per la generazione di flussi di lavoro

Abstract

Il contenuto generato dall'IA è evoluto da modelli monolitici a flussi di lavoro modulari, in particolare su piattaforme come ComfyUI, consentendo la personalizzazione nelle pipeline creative. Tuttavia, la creazione di flussi di lavoro efficaci richiede una grande esperienza per orchestrare numerosi componenti specializzati, presentando una curva di apprendimento ripida per gli utenti. Per affrontare questa sfida, introduciamo ComfyUI-R1, il primo modello di ragionamento su larga scala per la generazione automatica di flussi di lavoro. Partendo dal nostro dataset curato di 4K flussi di lavoro, costruiamo dati di ragionamento a catena lunga (CoT), inclusa la selezione dei nodi, la pianificazione del flusso di lavoro e la rappresentazione del flusso di lavoro a livello di codice. ComfyUI-R1 viene addestrato attraverso un framework a due fasi: (1) fine-tuning CoT per l'avvio a freddo, adattando i modelli al dominio ComfyUI; (2) apprendimento per rinforzo per incentivare la capacità di ragionamento, guidato da una ricompensa ibrida regola-metrica fine, garantendo la validità del formato, l'integrità strutturale e la fedeltà a livello di nodo. Gli esperimenti mostrano che il nostro modello da 7 miliardi di parametri raggiunge un tasso di validità del formato del 97%, insieme a un alto tasso di successo, punteggi F1 a livello di nodo e di grafo, superando significativamente i precedenti metodi all'avanguardia che impiegano modelli proprietari leader come GPT-4o e la serie Claude. Un'ulteriore analisi evidenzia il ruolo cruciale del processo di ragionamento e il vantaggio di trasformare i flussi di lavoro in codice. Il confronto qualitativo rivela la nostra forza nella sintesi di flussi di lavoro intricati con nodi diversificati, sottolineando il potenziale del ragionamento CoT lungo nella creazione artistica basata sull'IA.

English

AI-generated content has evolved from monolithic models to modular workflows, particularly on platforms like ComfyUI, enabling customization in creative pipelines. However, crafting effective workflows requires great expertise to orchestrate numerous specialized components, presenting a steep learning curve for users. To address this challenge, we introduce ComfyUI-R1, the first large reasoning model for automated workflow generation. Starting with our curated dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning data, including node selection, workflow planning, and code-level workflow representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT fine-tuning for cold start, adapting models to the ComfyUI domain; (2) reinforcement learning for incentivizing reasoning capability, guided by a fine-grained rule-metric hybrid reward, ensuring format validity, structural integrity, and node-level fidelity. Experiments show that our 7B-parameter model achieves a 97\% format validity rate, along with high pass rate, node-level and graph-level F1 scores, significantly surpassing prior state-of-the-art methods that employ leading closed-source models such as GPT-4o and Claude series. Further analysis highlights the critical role of the reasoning process and the advantage of transforming workflows into code. Qualitative comparison reveals our strength in synthesizing intricate workflows with diverse nodes, underscoring the potential of long CoT reasoning in AI art creation.

ComfyUI-R1: Esplorazione di modelli di ragionamento per la generazione di flussi di lavoro

ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

Abstract

Support