ComfyGen: テキストから画像への生成のためのプロンプト適応型ワークフロー
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation
October 2, 2024
著者: Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
cs.AI
要旨
テキストから画像を生成する実用的な利用は、単純な単一モデルから複数の専門コンポーネントを組み合わせた複雑なワークフローへと進化しています。ワークフローに基づくアプローチは画像品質の向上につながる可能性がありますが、効果的なワークフローの構築には、多数の利用可能なコンポーネント、それらの複雑な相互依存関係、および生成プロンプトへの依存性による、膨大な専門知識が必要です。本稿では、各ユーザープロンプトにワークフローを自動的に適合させる新しいタスクであるプロンプト適応型ワークフロー生成を紹介します。このタスクに取り組むために、2つのLLMベースのアプローチを提案します:ユーザーの好みデータから学習するチューニングベースの方法と、既存のフローを選択するためにLLMを使用するトレーニングフリーな方法です。これらのアプローチのいずれも、単一モデルや一般的なプロンプト非依存のワークフローと比較して画像品質の向上につながります。本研究は、プロンプト依存型のフロー予測がテキストから画像生成の品質向上への新たな道筋を提供し、研究分野における既存の研究方向を補完することを示しています。
English
The practical use of text-to-image generation has evolved from simple,
monolithic models to complex workflows that combine multiple specialized
components. While workflow-based approaches can lead to improved image quality,
crafting effective workflows requires significant expertise, owing to the large
number of available components, their complex inter-dependence, and their
dependence on the generation prompt. Here, we introduce the novel task of
prompt-adaptive workflow generation, where the goal is to automatically tailor
a workflow to each user prompt. We propose two LLM-based approaches to tackle
this task: a tuning-based method that learns from user-preference data, and a
training-free method that uses the LLM to select existing flows. Both
approaches lead to improved image quality when compared to monolithic models or
generic, prompt-independent workflows. Our work shows that prompt-dependent
flow prediction offers a new pathway to improving text-to-image generation
quality, complementing existing research directions in the field.Summary
AI-Generated Summary