ComfyGen: Prompt-adaptive Workflows für die Generierung von Text-zu-Bild.
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
October 2, 2024
Autoren: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI
Zusammenfassung
Die praktische Anwendung der Text-zu-Bild-Generierung hat sich von einfachen, monolithischen Modellen zu komplexen Workflows entwickelt, die mehrere spezialisierte Komponenten kombinieren. Während workflowbasierte Ansätze zu einer verbesserten Bildqualität führen können, erfordert die Erstellung effektiver Workflows erhebliche Expertise aufgrund der Vielzahl verfügbarer Komponenten, ihrer komplexen Interdependenz und ihrer Abhängigkeit von der Generierungsanforderung. Hier stellen wir die neuartige Aufgabe der prompt-adaptiven Workflow-Generierung vor, bei der das Ziel darin besteht, einen Workflow automatisch an jede Benutzeranforderung anzupassen. Wir schlagen zwei auf LLM basierende Ansätze zur Bewältigung dieser Aufgabe vor: eine auf Tuning basierende Methode, die aus Benutzerpräferenzdaten lernt, und eine trainingsfreie Methode, die den LLM verwendet, um vorhandene Abläufe auszuwählen. Beide Ansätze führen zu einer verbesserten Bildqualität im Vergleich zu monolithischen Modellen oder generischen, promptunabhängigen Workflows. Unsere Arbeit zeigt, dass die promptabhängige Flussvorhersage einen neuen Weg zur Verbesserung der Text-zu-Bild-Generierungsqualität bietet und bestehende Forschungsrichtungen auf diesem Gebiet ergänzt.
English
The practical use of text-to-image generation has evolved from simple,
monolithic models to complex workflows that combine multiple specialized
components. While workflow-based approaches can lead to improved image quality,
crafting effective workflows requires significant expertise, owing to the large
number of available components, their complex inter-dependence, and their
dependence on the generation prompt. Here, we introduce the novel task of
prompt-adaptive workflow generation, where the goal is to automatically tailor
a workflow to each user prompt. We propose two LLM-based approaches to tackle
this task: a tuning-based method that learns from user-preference data, and a
training-free method that uses the LLM to select existing flows. Both
approaches lead to improved image quality when compared to monolithic models or
generic, prompt-independent workflows. Our work shows that prompt-dependent
flow prediction offers a new pathway to improving text-to-image generation
quality, complementing existing research directions in the field.Summary
AI-Generated Summary