ChatPaper.aiChatPaper

ComfyMind: Hacia la generación de propósito general mediante planificación basada en árboles y retroalimentación reactiva

ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

May 23, 2025
Autores: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI

Resumen

Con el rápido avance de los modelos generativos, la generación de propósito general ha ganado una atención creciente como un enfoque prometedor para unificar diversas tareas a través de múltiples modalidades dentro de un solo sistema. A pesar de este progreso, los marcos de código abierto existentes a menudo siguen siendo frágiles y luchan por soportar aplicaciones complejas del mundo real debido a la falta de planificación estructurada de flujos de trabajo y retroalimentación a nivel de ejecución. Para abordar estas limitaciones, presentamos ComfyMind, un sistema de IA colaborativo diseñado para permitir una generación de propósito general robusta y escalable, construido sobre la plataforma ComfyUI. ComfyMind introduce dos innovaciones principales: la Interfaz de Flujo de Trabajo Semántico (SWI, por sus siglas en inglés), que abstrae los gráficos de nodos de bajo nivel en módulos funcionales invocables descritos en lenguaje natural, permitiendo una composición de alto nivel y reduciendo errores estructurales; y el mecanismo de Planificación de Árbol de Búsqueda con ejecución de retroalimentación localizada, que modela la generación como un proceso de decisión jerárquico y permite correcciones adaptativas en cada etapa. Juntos, estos componentes mejoran la estabilidad y flexibilidad de los flujos de trabajo generativos complejos. Evaluamos ComfyMind en tres benchmarks públicos: ComfyBench, GenEval y Reason-Edit, que abarcan tareas de generación, edición y razonamiento. Los resultados muestran que ComfyMind supera consistentemente a las líneas base de código abierto existentes y alcanza un rendimiento comparable a GPT-Image-1. ComfyMind allana un camino prometedor para el desarrollo de sistemas de IA generativa de propósito general de código abierto. Página del proyecto: https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation has gained increasing attention as a promising approach to unify diverse tasks across modalities within a single system. Despite this progress, existing open-source frameworks often remain fragile and struggle to support complex real-world applications due to the lack of structured workflow planning and execution-level feedback. To address these limitations, we present ComfyMind, a collaborative AI system designed to enable robust and scalable general-purpose generation, built on the ComfyUI platform. ComfyMind introduces two core innovations: Semantic Workflow Interface (SWI) that abstracts low-level node graphs into callable functional modules described in natural language, enabling high-level composition and reducing structural errors; Search Tree Planning mechanism with localized feedback execution, which models generation as a hierarchical decision process and allows adaptive correction at each stage. Together, these components improve the stability and flexibility of complex generative workflows. We evaluate ComfyMind on three public benchmarks: ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and reasoning tasks. Results show that ComfyMind consistently outperforms existing open-source baselines and achieves performance comparable to GPT-Image-1. ComfyMind paves a promising path for the development of open-source general-purpose generative AI systems. Project page: https://github.com/LitaoGuo/ComfyMind

Summary

AI-Generated Summary

PDF33May 28, 2025