ComfyMind: Auf dem Weg zur allgemeinen Zweckmäßigkeit durch baumbasierte Planung und reaktives Feedback
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
May 23, 2025
Autoren: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI
Zusammenfassung
Mit dem rasanten Fortschritt generativer Modelle hat die allgemeine Generierung zunehmend Aufmerksamkeit als vielversprechender Ansatz erlangt, um verschiedene Aufgaben über Modalitäten hinweg in einem einzigen System zu vereinen. Trotz dieser Fortschritte bleiben bestehende Open-Source-Frameworks oft fragil und haben Schwierigkeiten, komplexe Anwendungen in der realen Welt zu unterstützen, was auf den Mangel an strukturierter Arbeitsablaufplanung und Feedback auf Ausführungsebene zurückzuführen ist. Um diese Einschränkungen zu überwinden, präsentieren wir ComfyMind, ein kollaboratives KI-System, das darauf abzielt, robuste und skalierbare allgemeine Generierung zu ermöglichen, basierend auf der ComfyUI-Plattform. ComfyMind führt zwei Kerninnovationen ein: Die Semantic Workflow Interface (SWI), die Low-Level-Knotengraphen in aufrufbare Funktionsmodule abstrahiert, die in natürlicher Sprache beschrieben sind, wodurch High-Level-Komposition ermöglicht und strukturelle Fehler reduziert werden; sowie den Search Tree Planning-Mechanismus mit lokalisiertem Feedback zur Ausführung, der die Generierung als hierarchischen Entscheidungsprozess modelliert und adaptive Korrekturen in jeder Phase ermöglicht. Zusammen verbessern diese Komponenten die Stabilität und Flexibilität komplexer generativer Arbeitsabläufe. Wir evaluieren ComfyMind anhand von drei öffentlichen Benchmarks: ComfyBench, GenEval und Reason-Edit, die Generierungs-, Bearbeitungs- und Schlussfolgerungsaufgaben abdecken. Die Ergebnisse zeigen, dass ComfyMind bestehende Open-Source-Baselines konsequent übertrifft und eine Leistung erzielt, die mit GPT-Image-1 vergleichbar ist. ComfyMind ebnet einen vielversprechenden Weg für die Entwicklung von Open-Source-Systemen für allgemeine generative KI. Projektseite: https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation
has gained increasing attention as a promising approach to unify diverse tasks
across modalities within a single system. Despite this progress, existing
open-source frameworks often remain fragile and struggle to support complex
real-world applications due to the lack of structured workflow planning and
execution-level feedback. To address these limitations, we present ComfyMind, a
collaborative AI system designed to enable robust and scalable general-purpose
generation, built on the ComfyUI platform. ComfyMind introduces two core
innovations: Semantic Workflow Interface (SWI) that abstracts low-level node
graphs into callable functional modules described in natural language, enabling
high-level composition and reducing structural errors; Search Tree Planning
mechanism with localized feedback execution, which models generation as a
hierarchical decision process and allows adaptive correction at each stage.
Together, these components improve the stability and flexibility of complex
generative workflows. We evaluate ComfyMind on three public benchmarks:
ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and
reasoning tasks. Results show that ComfyMind consistently outperforms existing
open-source baselines and achieves performance comparable to GPT-Image-1.
ComfyMind paves a promising path for the development of open-source
general-purpose generative AI systems. Project page:
https://github.com/LitaoGuo/ComfyMindSummary
AI-Generated Summary