ChatPaper.aiChatPaper

ComfyUI-R1: Исследование моделей логического вывода для генерации рабочих процессов

ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

June 11, 2025
Авторы: Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
cs.AI

Аннотация

Контент, созданный с использованием искусственного интеллекта, эволюционировал от монолитных моделей к модульным рабочим процессам, особенно на платформах, таких как ComfyUI, что позволяет настраивать творческие процессы. Однако создание эффективных рабочих процессов требует значительного опыта для координации множества специализированных компонентов, что представляет собой высокий порог входа для пользователей. Для решения этой проблемы мы представляем ComfyUI-R1 — первую крупную модель рассуждений для автоматизированной генерации рабочих процессов. Начиная с нашего курируемого набора данных из 4K рабочих процессов, мы создаем длинные цепочки рассуждений (CoT), включая выбор узлов, планирование рабочих процессов и представление рабочих процессов на уровне кода. ComfyUI-R1 обучается с использованием двухэтапной структуры: (1) тонкая настройка CoT для холодного старта, адаптирующая модели к домену ComfyUI; (2) обучение с подкреплением для стимулирования способности к рассуждению, направляемое гибридной наградой на основе правил и метрик, что обеспечивает валидность формата, структурную целостность и точность на уровне узлов. Эксперименты показывают, что наша модель с 7 миллиардами параметров достигает 97\% валидности формата, а также высоких показателей прохождения, F1-оценок на уровне узлов и графов, значительно превосходя предыдущие передовые методы, использующие ведущие закрытые модели, такие как GPT-4o и серия Claude. Дополнительный анализ подчеркивает критическую роль процесса рассуждений и преимущество преобразования рабочих процессов в код. Качественное сравнение демонстрирует нашу способность синтезировать сложные рабочие процессы с разнообразными узлами, подчеркивая потенциал длинных цепочек рассуждений в создании искусства с использованием ИИ.
English
AI-generated content has evolved from monolithic models to modular workflows, particularly on platforms like ComfyUI, enabling customization in creative pipelines. However, crafting effective workflows requires great expertise to orchestrate numerous specialized components, presenting a steep learning curve for users. To address this challenge, we introduce ComfyUI-R1, the first large reasoning model for automated workflow generation. Starting with our curated dataset of 4K workflows, we construct long chain-of-thought (CoT) reasoning data, including node selection, workflow planning, and code-level workflow representation. ComfyUI-R1 is trained through a two-stage framework: (1) CoT fine-tuning for cold start, adapting models to the ComfyUI domain; (2) reinforcement learning for incentivizing reasoning capability, guided by a fine-grained rule-metric hybrid reward, ensuring format validity, structural integrity, and node-level fidelity. Experiments show that our 7B-parameter model achieves a 97\% format validity rate, along with high pass rate, node-level and graph-level F1 scores, significantly surpassing prior state-of-the-art methods that employ leading closed-source models such as GPT-4o and Claude series. Further analysis highlights the critical role of the reasoning process and the advantage of transforming workflows into code. Qualitative comparison reveals our strength in synthesizing intricate workflows with diverse nodes, underscoring the potential of long CoT reasoning in AI art creation.
PDF444June 12, 2025