ComfyMind : Vers une génération à usage général via une planification arborescente et une rétroaction réactive
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
May 23, 2025
Auteurs: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI
Résumé
Avec l’avancée rapide des modèles génératifs, la génération à usage général a suscité un intérêt croissant en tant qu’approche prometteuse pour unifier des tâches variées à travers différentes modalités au sein d’un système unique. Malgré ces progrès, les frameworks open-source existants restent souvent fragiles et peinent à supporter des applications complexes du monde réel en raison d’un manque de planification structurée des workflows et de rétroaction au niveau de l’exécution. Pour répondre à ces limitations, nous présentons ComfyMind, un système d’IA collaboratif conçu pour permettre une génération à usage général robuste et scalable, construit sur la plateforme ComfyUI. ComfyMind introduit deux innovations majeures : l’Interface de Workflow Sémantique (Semantic Workflow Interface, SWI) qui abstrait les graphes de nœuds de bas niveau en modules fonctionnels invocables décrits en langage naturel, facilitant la composition de haut niveau et réduisant les erreurs structurelles ; et le mécanisme de Planification par Arbre de Recherche avec exécution à rétroaction localisée, qui modélise la génération comme un processus décisionnel hiérarchique et permet une correction adaptative à chaque étape. Ensemble, ces composants améliorent la stabilité et la flexibilité des workflows génératifs complexes. Nous évaluons ComfyMind sur trois benchmarks publics : ComfyBench, GenEval et Reason-Edit, qui couvrent des tâches de génération, d’édition et de raisonnement. Les résultats montrent que ComfyMind surpasse systématiquement les baselines open-source existantes et atteint des performances comparables à GPT-Image-1. ComfyMind ouvre une voie prometteuse pour le développement de systèmes d’IA génératifs open-source à usage général. Page du projet : https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation
has gained increasing attention as a promising approach to unify diverse tasks
across modalities within a single system. Despite this progress, existing
open-source frameworks often remain fragile and struggle to support complex
real-world applications due to the lack of structured workflow planning and
execution-level feedback. To address these limitations, we present ComfyMind, a
collaborative AI system designed to enable robust and scalable general-purpose
generation, built on the ComfyUI platform. ComfyMind introduces two core
innovations: Semantic Workflow Interface (SWI) that abstracts low-level node
graphs into callable functional modules described in natural language, enabling
high-level composition and reducing structural errors; Search Tree Planning
mechanism with localized feedback execution, which models generation as a
hierarchical decision process and allows adaptive correction at each stage.
Together, these components improve the stability and flexibility of complex
generative workflows. We evaluate ComfyMind on three public benchmarks:
ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and
reasoning tasks. Results show that ComfyMind consistently outperforms existing
open-source baselines and achieves performance comparable to GPT-Image-1.
ComfyMind paves a promising path for the development of open-source
general-purpose generative AI systems. Project page:
https://github.com/LitaoGuo/ComfyMindSummary
AI-Generated Summary