ComfyGen: Fluxos de Trabalho Adaptativos para Geração de Texto para Imagem
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
October 2, 2024
Autores: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI
Resumo
O uso prático da geração de texto para imagem evoluiu de modelos simples e monolíticos para fluxos de trabalho complexos que combinam múltiplos componentes especializados. Embora abordagens baseadas em fluxo de trabalho possam resultar em uma melhor qualidade de imagem, a criação de fluxos de trabalho eficazes requer uma expertise significativa, devido ao grande número de componentes disponíveis, sua complexa interdependência e sua dependência da instrução de geração. Aqui, introduzimos a nova tarefa de geração de fluxo de trabalho adaptativo à instrução, onde o objetivo é adaptar automaticamente um fluxo de trabalho para cada instrução do usuário. Propomos duas abordagens baseadas em LLM para lidar com essa tarefa: um método baseado em ajuste que aprende a partir de dados de preferência do usuário, e um método sem necessidade de treinamento que utiliza o LLM para selecionar fluxos existentes. Ambas as abordagens resultam em uma melhor qualidade de imagem quando comparadas a modelos monolíticos ou fluxos genéricos independentes da instrução. Nosso trabalho demonstra que a previsão de fluxo dependente da instrução oferece um novo caminho para melhorar a qualidade da geração de texto para imagem, complementando as direções de pesquisa existentes no campo.
English
The practical use of text-to-image generation has evolved from simple,
monolithic models to complex workflows that combine multiple specialized
components. While workflow-based approaches can lead to improved image quality,
crafting effective workflows requires significant expertise, owing to the large
number of available components, their complex inter-dependence, and their
dependence on the generation prompt. Here, we introduce the novel task of
prompt-adaptive workflow generation, where the goal is to automatically tailor
a workflow to each user prompt. We propose two LLM-based approaches to tackle
this task: a tuning-based method that learns from user-preference data, and a
training-free method that uses the LLM to select existing flows. Both
approaches lead to improved image quality when compared to monolithic models or
generic, prompt-independent workflows. Our work shows that prompt-dependent
flow prediction offers a new pathway to improving text-to-image generation
quality, complementing existing research directions in the field.Summary
AI-Generated Summary