ChatPaper.aiChatPaper

ComfyGen: Flussi di lavoro adattivi alla richiesta per la generazione di testo in immagini

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

October 2, 2024
Autori: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI

Abstract

L'uso pratico della generazione testo-immagine è evoluto da modelli semplici e monolitici a flussi di lavoro complessi che combinano più componenti specializzate. Sebbene gli approcci basati su flussi di lavoro possano portare a un miglioramento della qualità dell'immagine, la creazione di flussi di lavoro efficaci richiede una notevole esperienza, a causa del gran numero di componenti disponibili, della loro complessa interdipendenza e della dipendenza dalla richiesta di generazione. Qui presentiamo il nuovo compito di generazione di flussi di lavoro adattivi alla richiesta, dove l'obiettivo è adattare automaticamente un flusso di lavoro a ciascuna richiesta dell'utente. Proponiamo due approcci basati su LLM per affrontare questo compito: un metodo basato sul tuning che apprende dai dati sulle preferenze dell'utente e un metodo senza addestramento che utilizza il LLM per selezionare flussi esistenti. Entrambi gli approcci portano a un miglioramento della qualità dell'immagine rispetto ai modelli monolitici o ai flussi di lavoro generici e indipendenti dalla richiesta. Il nostro lavoro dimostra che la previsione del flusso dipendente dalla richiesta offre una nuova via per migliorare la qualità della generazione testo-immagine, integrando le direzioni di ricerca esistenti nel settore.
English
The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.
PDF172November 16, 2024