ComfyMind: К универсальной генерации через древовидное планирование и реактивную обратную связь
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
May 23, 2025
Авторы: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI
Аннотация
С быстрым развитием генеративных моделей универсальная генерация привлекает всё больше внимания как перспективный подход для объединения разнообразных задач в рамках одной системы, охватывающей различные модальности. Несмотря на этот прогресс, существующие открытые фреймворки часто остаются хрупкими и испытывают трудности с поддержкой сложных приложений в реальном мире из-за отсутствия структурированного планирования рабочих процессов и обратной связи на уровне выполнения. Чтобы устранить эти ограничения, мы представляем ComfyMind — совместную ИИ-систему, разработанную для обеспечения устойчивой и масштабируемой универсальной генерации, построенную на платформе ComfyUI. ComfyMind предлагает два ключевых нововведения: интерфейс семантического рабочего процесса (Semantic Workflow Interface, SWI), который абстрагирует низкоуровневые графы узлов в вызываемые функциональные модули, описанные на естественном языке, что позволяет осуществлять высокоуровневую композицию и снижает структурные ошибки; механизм планирования с использованием дерева поиска и локальной обратной связи, который моделирует генерацию как иерархический процесс принятия решений и позволяет адаптивно корректировать каждый этап. Вместе эти компоненты повышают стабильность и гибкость сложных генеративных рабочих процессов. Мы оцениваем ComfyMind на трёх публичных бенчмарках: ComfyBench, GenEval и Reason-Edit, которые охватывают задачи генерации, редактирования и логического рассуждения. Результаты показывают, что ComfyMind стабильно превосходит существующие открытые базовые решения и демонстрирует производительность, сопоставимую с GPT-Image-1. ComfyMind прокладывает перспективный путь для разработки открытых универсальных генеративных ИИ-систем. Страница проекта: https://github.com/LitaoGuo/ComfyMind.
English
With the rapid advancement of generative models, general-purpose generation
has gained increasing attention as a promising approach to unify diverse tasks
across modalities within a single system. Despite this progress, existing
open-source frameworks often remain fragile and struggle to support complex
real-world applications due to the lack of structured workflow planning and
execution-level feedback. To address these limitations, we present ComfyMind, a
collaborative AI system designed to enable robust and scalable general-purpose
generation, built on the ComfyUI platform. ComfyMind introduces two core
innovations: Semantic Workflow Interface (SWI) that abstracts low-level node
graphs into callable functional modules described in natural language, enabling
high-level composition and reducing structural errors; Search Tree Planning
mechanism with localized feedback execution, which models generation as a
hierarchical decision process and allows adaptive correction at each stage.
Together, these components improve the stability and flexibility of complex
generative workflows. We evaluate ComfyMind on three public benchmarks:
ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and
reasoning tasks. Results show that ComfyMind consistently outperforms existing
open-source baselines and achieves performance comparable to GPT-Image-1.
ComfyMind paves a promising path for the development of open-source
general-purpose generative AI systems. Project page:
https://github.com/LitaoGuo/ComfyMindSummary
AI-Generated Summary