ComfyMind: Verso una Generazione a Scopo Generale attraverso Pianificazione ad Albero e Feedback Reattivo
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
May 23, 2025
Autori: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI
Abstract
Con il rapido avanzamento dei modelli generativi, la generazione a scopo generale ha attirato un'attenzione crescente come approccio promettente per unificare compiti diversi attraverso diverse modalità all'interno di un unico sistema. Nonostante questi progressi, i framework open-source esistenti spesso rimangono fragili e faticano a supportare applicazioni complesse del mondo reale a causa della mancanza di pianificazione strutturata del flusso di lavoro e di feedback a livello di esecuzione. Per affrontare queste limitazioni, presentiamo ComfyMind, un sistema AI collaborativo progettato per abilitare una generazione a scopo generale robusta e scalabile, costruito sulla piattaforma ComfyUI. ComfyMind introduce due innovazioni principali: l'Interfaccia di Flusso di Lavoro Semantico (SWI) che astrae i grafi di nodi di basso livello in moduli funzionali richiamabili descritti in linguaggio naturale, consentendo una composizione di alto livello e riducendo gli errori strutturali; il meccanismo di Pianificazione ad Albero di Ricerca con esecuzione a feedback localizzato, che modella la generazione come un processo decisionale gerarchico e consente correzioni adattive in ogni fase. Insieme, questi componenti migliorano la stabilità e la flessibilità dei flussi di lavoro generativi complessi. Valutiamo ComfyMind su tre benchmark pubblici: ComfyBench, GenEval e Reason-Edit, che coprono compiti di generazione, modifica e ragionamento. I risultati mostrano che ComfyMind supera costantemente i baseline open-source esistenti e raggiunge prestazioni comparabili a GPT-Image-1. ComfyMind apre una strada promettente per lo sviluppo di sistemi AI generativi a scopo generale open-source. Pagina del progetto: https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation
has gained increasing attention as a promising approach to unify diverse tasks
across modalities within a single system. Despite this progress, existing
open-source frameworks often remain fragile and struggle to support complex
real-world applications due to the lack of structured workflow planning and
execution-level feedback. To address these limitations, we present ComfyMind, a
collaborative AI system designed to enable robust and scalable general-purpose
generation, built on the ComfyUI platform. ComfyMind introduces two core
innovations: Semantic Workflow Interface (SWI) that abstracts low-level node
graphs into callable functional modules described in natural language, enabling
high-level composition and reducing structural errors; Search Tree Planning
mechanism with localized feedback execution, which models generation as a
hierarchical decision process and allows adaptive correction at each stage.
Together, these components improve the stability and flexibility of complex
generative workflows. We evaluate ComfyMind on three public benchmarks:
ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and
reasoning tasks. Results show that ComfyMind consistently outperforms existing
open-source baselines and achieves performance comparable to GPT-Image-1.
ComfyMind paves a promising path for the development of open-source
general-purpose generative AI systems. Project page:
https://github.com/LitaoGuo/ComfyMind