ComfyGen: Prompt-Aanpasbare Workflows voor Tekst-naar-Afbeelding Generatie
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
October 2, 2024
Auteurs: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI
Samenvatting
Het praktische gebruik van tekst-naar-afbeelding generatie is geëvolueerd van eenvoudige, monolithische modellen naar complexe workflows die meerdere gespecialiseerde componenten combineren. Hoewel op workflows gebaseerde benaderingen kunnen leiden tot verbeterde beeldkwaliteit, vereist het ontwerpen van effectieve workflows aanzienlijke expertise, vanwege het grote aantal beschikbare componenten, hun complexe onderlinge afhankelijkheid en hun afhankelijkheid van de generatieprompt. Hier introduceren we de nieuwe taak van prompt-aangepaste workflowgeneratie, waarbij het doel is om automatisch een workflow aan te passen aan elke gebruikersprompt. We stellen twee op LLM gebaseerde benaderingen voor om deze taak aan te pakken: een op afstemming gebaseerde methode die leert van gebruikersvoorkeursgegevens, en een trainingsvrije methode die de LLM gebruikt om bestaande stromen te selecteren. Beide benaderingen leiden tot verbeterde beeldkwaliteit in vergelijking met monolithische modellen of generieke, prompt-onafhankelijke workflows. Ons werk toont aan dat prompt-afhankelijke stroomvoorspelling een nieuwe weg biedt om de kwaliteit van tekst-naar-afbeelding generatie te verbeteren, als aanvulling op bestaande onderzoeksrichtingen in het vakgebied.
English
The practical use of text-to-image generation has evolved from simple,
monolithic models to complex workflows that combine multiple specialized
components. While workflow-based approaches can lead to improved image quality,
crafting effective workflows requires significant expertise, owing to the large
number of available components, their complex inter-dependence, and their
dependence on the generation prompt. Here, we introduce the novel task of
prompt-adaptive workflow generation, where the goal is to automatically tailor
a workflow to each user prompt. We propose two LLM-based approaches to tackle
this task: a tuning-based method that learns from user-preference data, and a
training-free method that uses the LLM to select existing flows. Both
approaches lead to improved image quality when compared to monolithic models or
generic, prompt-independent workflows. Our work shows that prompt-dependent
flow prediction offers a new pathway to improving text-to-image generation
quality, complementing existing research directions in the field.Summary
AI-Generated Summary