ComfyGen : Workflows adaptatifs aux requêtes pour la génération de texte en image
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
October 2, 2024
Auteurs: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI
Résumé
L'utilisation pratique de la génération de texte vers image a évolué des modèles simples et monolithiques à des flux de travaux complexes combinant plusieurs composants spécialisés. Bien que les approches basées sur les flux de travaux puissent améliorer la qualité des images, la création de flux de travaux efficaces nécessite une expertise significative, en raison du grand nombre de composants disponibles, de leurs interdépendances complexes et de leur dépendance à l'invite de génération. Nous introduisons ici la nouvelle tâche de génération de flux de travaux adaptatifs à l'invite, dont le but est de personnaliser automatiquement un flux de travaux pour chaque invite utilisateur. Nous proposons deux approches basées sur les LLM pour aborder cette tâche : une méthode basée sur l'ajustement qui apprend à partir des données de préférence utilisateur, et une méthode sans entraînement qui utilise les LLM pour sélectionner des flux existants. Les deux approches permettent d'améliorer la qualité des images par rapport aux modèles monolithiques ou aux flux génériques indépendants de l'invite. Notre travail montre que la prédiction de flux dépendant de l'invite offre une nouvelle voie pour améliorer la qualité de la génération de texte vers image, complétant les orientations de recherche existantes dans le domaine.
English
The practical use of text-to-image generation has evolved from simple,
monolithic models to complex workflows that combine multiple specialized
components. While workflow-based approaches can lead to improved image quality,
crafting effective workflows requires significant expertise, owing to the large
number of available components, their complex inter-dependence, and their
dependence on the generation prompt. Here, we introduce the novel task of
prompt-adaptive workflow generation, where the goal is to automatically tailor
a workflow to each user prompt. We propose two LLM-based approaches to tackle
this task: a tuning-based method that learns from user-preference data, and a
training-free method that uses the LLM to select existing flows. Both
approaches lead to improved image quality when compared to monolithic models or
generic, prompt-independent workflows. Our work shows that prompt-dependent
flow prediction offers a new pathway to improving text-to-image generation
quality, complementing existing research directions in the field.Summary
AI-Generated Summary