ComfyMind: Rumo à Geração de Propósito Geral por meio de Planejamento Baseado em Árvore e Feedback Reativo
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
May 23, 2025
Autores: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI
Resumo
Com o rápido avanço dos modelos generativos, a geração de propósito geral tem ganhado crescente atenção como uma abordagem promissora para unificar diversas tarefas entre modalidades em um único sistema. Apesar desse progresso, os frameworks de código aberto existentes frequentemente permanecem frágeis e lutam para suportar aplicações complexas do mundo real devido à falta de planejamento estruturado de fluxo de trabalho e feedback no nível de execução. Para abordar essas limitações, apresentamos o ComfyMind, um sistema de IA colaborativo projetado para permitir geração de propósito geral robusta e escalável, construído na plataforma ComfyUI. O ComfyMind introduz duas inovações principais: a Interface de Fluxo de Trabalho Semântico (SWI), que abstrai gráficos de nós de baixo nível em módulos funcionais chamáveis descritos em linguagem natural, permitindo composição de alto nível e reduzindo erros estruturais; e o mecanismo de Planejamento de Árvore de Busca com execução de feedback localizado, que modela a geração como um processo de decisão hierárquico e permite correção adaptativa em cada estágio. Juntos, esses componentes melhoram a estabilidade e a flexibilidade de fluxos de trabalho generativos complexos. Avaliamos o ComfyMind em três benchmarks públicos: ComfyBench, GenEval e Reason-Edit, que abrangem tarefas de geração, edição e raciocínio. Os resultados mostram que o ComfyMind consistentemente supera as baselines de código aberto existentes e alcança desempenho comparável ao GPT-Image-1. O ComfyMind abre um caminho promissor para o desenvolvimento de sistemas de IA generativa de propósito geral de código aberto. Página do projeto: https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation
has gained increasing attention as a promising approach to unify diverse tasks
across modalities within a single system. Despite this progress, existing
open-source frameworks often remain fragile and struggle to support complex
real-world applications due to the lack of structured workflow planning and
execution-level feedback. To address these limitations, we present ComfyMind, a
collaborative AI system designed to enable robust and scalable general-purpose
generation, built on the ComfyUI platform. ComfyMind introduces two core
innovations: Semantic Workflow Interface (SWI) that abstracts low-level node
graphs into callable functional modules described in natural language, enabling
high-level composition and reducing structural errors; Search Tree Planning
mechanism with localized feedback execution, which models generation as a
hierarchical decision process and allows adaptive correction at each stage.
Together, these components improve the stability and flexibility of complex
generative workflows. We evaluate ComfyMind on three public benchmarks:
ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and
reasoning tasks. Results show that ComfyMind consistently outperforms existing
open-source baselines and achieves performance comparable to GPT-Image-1.
ComfyMind paves a promising path for the development of open-source
general-purpose generative AI systems. Project page:
https://github.com/LitaoGuo/ComfyMind