ComfyMind: 木構造に基づく計画とリアクティブフィードバックによる汎用生成に向けて
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
May 23, 2025
著者: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI
要旨
生成モデルの急速な進展に伴い、汎用生成は、単一システム内で多様なモダリティにわたるタスクを統合する有望なアプローチとして、ますます注目を集めています。しかし、この進歩にもかかわらず、既存のオープンソースフレームワークはしばしば脆弱であり、構造化されたワークフロープランニングと実行レベルのフィードバックの欠如により、複雑な現実世界のアプリケーションをサポートするのに苦労しています。これらの制限に対処するため、我々はComfyUIプラットフォーム上に構築された、堅牢でスケーラブルな汎用生成を可能にする協調型AIシステムであるComfyMindを提案します。ComfyMindは、2つの核心的な革新を導入しています。1つ目は、低レベルのノードグラフを自然言語で記述された呼び出し可能な機能モジュールに抽象化し、高レベルの構成を可能にし構造的エラーを減少させるSemantic Workflow Interface (SWI)です。2つ目は、生成を階層的な意思決定プロセスとしてモデル化し、各段階での適応的修正を可能にする、局所的なフィードバック実行を伴うSearch Tree Planningメカニズムです。これらのコンポーネントが連携することで、複雑な生成ワークフローの安定性と柔軟性が向上します。我々はComfyMindを、生成、編集、推論タスクにわたる3つの公開ベンチマーク(ComfyBench、GenEval、Reason-Edit)で評価しました。結果は、ComfyMindが既存のオープンソースベースラインを一貫して上回り、GPT-Image-1に匹敵する性能を達成することを示しています。ComfyMindは、オープンソースの汎用生成AIシステムの開発において有望な道を切り開いています。プロジェクトページ: https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation
has gained increasing attention as a promising approach to unify diverse tasks
across modalities within a single system. Despite this progress, existing
open-source frameworks often remain fragile and struggle to support complex
real-world applications due to the lack of structured workflow planning and
execution-level feedback. To address these limitations, we present ComfyMind, a
collaborative AI system designed to enable robust and scalable general-purpose
generation, built on the ComfyUI platform. ComfyMind introduces two core
innovations: Semantic Workflow Interface (SWI) that abstracts low-level node
graphs into callable functional modules described in natural language, enabling
high-level composition and reducing structural errors; Search Tree Planning
mechanism with localized feedback execution, which models generation as a
hierarchical decision process and allows adaptive correction at each stage.
Together, these components improve the stability and flexibility of complex
generative workflows. We evaluate ComfyMind on three public benchmarks:
ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and
reasoning tasks. Results show that ComfyMind consistently outperforms existing
open-source baselines and achieves performance comparable to GPT-Image-1.
ComfyMind paves a promising path for the development of open-source
general-purpose generative AI systems. Project page:
https://github.com/LitaoGuo/ComfyMindSummary
AI-Generated Summary