ChatPaper.aiChatPaper

ComfyMind: Op weg naar generiek doelgerichte generatie via boomgebaseerde planning en reactieve feedback

ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback

May 23, 2025
Auteurs: Litao Guo, Xinli Xu, Luozhou Wang, Jiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Ying-Cong Chen
cs.AI

Samenvatting

Met de snelle vooruitgang van generatieve modellen heeft generatie voor algemene doeleinden steeds meer aandacht gekregen als een veelbelovende benadering om diverse taken over verschillende modaliteiten te verenigen binnen een enkel systeem. Ondanks deze vooruitgang blijven bestaande open-source frameworks vaak kwetsbaar en worstelen ze met het ondersteunen van complexe real-world toepassingen vanwege het ontbreken van gestructureerde workflowplanning en feedback op uitvoeringsniveau. Om deze beperkingen aan te pakken, presenteren we ComfyMind, een collaboratief AI-systeem ontworpen om robuuste en schaalbare generatie voor algemene doeleinden mogelijk te maken, gebouwd op het ComfyUI-platform. ComfyMind introduceert twee kerninnovaties: de Semantic Workflow Interface (SWI) die low-level node-grafieken abstraheert naar aanroepbare functionele modules die in natuurlijke taal worden beschreven, waardoor high-level compositie mogelijk wordt en structurele fouten worden verminderd; en het Search Tree Planning-mechanisme met gelokaliseerde feedbackuitvoering, dat generatie modelleert als een hiërarchisch beslissingsproces en adaptieve correctie op elk stadium mogelijk maakt. Samen verbeteren deze componenten de stabiliteit en flexibiliteit van complexe generatieve workflows. We evalueren ComfyMind op drie publieke benchmarks: ComfyBench, GenEval en Reason-Edit, die generatie-, bewerkings- en redeneertaken omvatten. De resultaten tonen aan dat ComfyMind consistent beter presteert dan bestaande open-source baselines en prestaties bereikt die vergelijkbaar zijn met GPT-Image-1. ComfyMind baant een veelbelovend pad voor de ontwikkeling van open-source generatieve AI-systemen voor algemene doeleinden. Projectpagina: https://github.com/LitaoGuo/ComfyMind
English
With the rapid advancement of generative models, general-purpose generation has gained increasing attention as a promising approach to unify diverse tasks across modalities within a single system. Despite this progress, existing open-source frameworks often remain fragile and struggle to support complex real-world applications due to the lack of structured workflow planning and execution-level feedback. To address these limitations, we present ComfyMind, a collaborative AI system designed to enable robust and scalable general-purpose generation, built on the ComfyUI platform. ComfyMind introduces two core innovations: Semantic Workflow Interface (SWI) that abstracts low-level node graphs into callable functional modules described in natural language, enabling high-level composition and reducing structural errors; Search Tree Planning mechanism with localized feedback execution, which models generation as a hierarchical decision process and allows adaptive correction at each stage. Together, these components improve the stability and flexibility of complex generative workflows. We evaluate ComfyMind on three public benchmarks: ComfyBench, GenEval, and Reason-Edit, which span generation, editing, and reasoning tasks. Results show that ComfyMind consistently outperforms existing open-source baselines and achieves performance comparable to GPT-Image-1. ComfyMind paves a promising path for the development of open-source general-purpose generative AI systems. Project page: https://github.com/LitaoGuo/ComfyMind
PDF33May 28, 2025