ChatPaper.aiChatPaper

ComfyGen: Адаптивные рабочие процессы для генерации текста в изображения.

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

October 2, 2024
Авторы: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI

Аннотация

Практическое применение генерации текста в изображение эволюционировало от простых монолитных моделей к сложным рабочим процессам, объединяющим несколько специализированных компонентов. Хотя подходы на основе рабочих процессов могут привести к улучшению качества изображения, создание эффективных рабочих процессов требует значительной экспертизы из-за большого количества доступных компонентов, их сложной взаимозависимости и зависимости от текстовой подсказки для генерации. Здесь мы представляем новую задачу генерации рабочего процесса, адаптированного к подсказке, где целью является автоматическое настройка рабочего процесса под каждую текстовую подсказку пользователя. Мы предлагаем два подхода на основе LLM для решения этой задачи: метод настройки, который учитывает данные о предпочтениях пользователя, и метод без обучения, который использует LLM для выбора существующих потоков. Оба подхода приводят к улучшению качества изображения по сравнению с монолитными моделями или общими, независимыми от подсказки рабочими процессами. Наша работа показывает, что предсказание потока, зависящее от подсказки, предлагает новый путь к улучшению качества генерации текста в изображение, дополняя существующие исследовательские направления в этой области.
English
The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.
PDF172November 16, 2024