ComfyGen: Flujos de trabajo adaptables a la entrada para la generación de texto a imagen

Resumen

El uso práctico de la generación de texto a imagen ha evolucionado desde modelos simples y monolíticos a flujos de trabajo complejos que combinan múltiples componentes especializados. Si bien los enfoques basados en flujos de trabajo pueden conducir a una mejor calidad de imagen, la creación de flujos de trabajo efectivos requiere una experiencia significativa, debido al gran número de componentes disponibles, su compleja interdependencia y su dependencia de la consigna de generación. Aquí, presentamos la novedosa tarea de generación de flujos de trabajo adaptativos a la consigna, donde el objetivo es adaptar automáticamente un flujo de trabajo a cada consigna de usuario. Proponemos dos enfoques basados en LLM para abordar esta tarea: un método basado en ajuste que aprende a partir de datos de preferencia del usuario, y un método sin entrenamiento que utiliza el LLM para seleccionar flujos existentes. Ambos enfoques conducen a una mejor calidad de imagen en comparación con modelos monolíticos o flujos genéricos e independientes de la consigna. Nuestro trabajo muestra que la predicción de flujos dependiente de la consigna ofrece un nuevo camino para mejorar la calidad de generación de texto a imagen, complementando las direcciones de investigación existentes en el campo.

English

The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.

ComfyGen: Flujos de trabajo adaptables a la entrada para la generación de texto a imagen

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

Resumen

Support