ComfyGen: Flujos de trabajo adaptables a la entrada para la generación de texto a imagen
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
October 2, 2024
Autores: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI
Resumen
El uso práctico de la generación de texto a imagen ha evolucionado desde modelos simples y monolíticos a flujos de trabajo complejos que combinan múltiples componentes especializados. Si bien los enfoques basados en flujos de trabajo pueden conducir a una mejor calidad de imagen, la creación de flujos de trabajo efectivos requiere una experiencia significativa, debido al gran número de componentes disponibles, su compleja interdependencia y su dependencia de la consigna de generación. Aquí, presentamos la novedosa tarea de generación de flujos de trabajo adaptativos a la consigna, donde el objetivo es adaptar automáticamente un flujo de trabajo a cada consigna de usuario. Proponemos dos enfoques basados en LLM para abordar esta tarea: un método basado en ajuste que aprende a partir de datos de preferencia del usuario, y un método sin entrenamiento que utiliza el LLM para seleccionar flujos existentes. Ambos enfoques conducen a una mejor calidad de imagen en comparación con modelos monolíticos o flujos genéricos e independientes de la consigna. Nuestro trabajo muestra que la predicción de flujos dependiente de la consigna ofrece un nuevo camino para mejorar la calidad de generación de texto a imagen, complementando las direcciones de investigación existentes en el campo.
English
The practical use of text-to-image generation has evolved from simple,
monolithic models to complex workflows that combine multiple specialized
components. While workflow-based approaches can lead to improved image quality,
crafting effective workflows requires significant expertise, owing to the large
number of available components, their complex inter-dependence, and their
dependence on the generation prompt. Here, we introduce the novel task of
prompt-adaptive workflow generation, where the goal is to automatically tailor
a workflow to each user prompt. We propose two LLM-based approaches to tackle
this task: a tuning-based method that learns from user-preference data, and a
training-free method that uses the LLM to select existing flows. Both
approaches lead to improved image quality when compared to monolithic models or
generic, prompt-independent workflows. Our work shows that prompt-dependent
flow prediction offers a new pathway to improving text-to-image generation
quality, complementing existing research directions in the field.Summary
AI-Generated Summary