ChatPaper.aiChatPaper

TextCraftor:あなたのテキストエンコーダが画像品質コントローラーになる

TextCraftor: Your Text Encoder Can be Image Quality Controller

March 27, 2024
著者: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI

要旨

拡散モデルに基づくテキストから画像への生成モデル、例えばStable Diffusionは、コンテンツ生成の分野に革命をもたらし、画像編集や映像合成などの領域で大きな進展を可能にしました。しかし、これらのモデルには限界も存在します。入力テキストとよく一致する画像を合成することは依然として難しく、満足のいく結果を得るためには入念に設計されたプロンプトを用いた複数回の実行が必要です。これらの制約を緩和するため、多くの研究が事前学習済みの拡散モデル(UNetなど)を様々な技術を用いてファインチューニングする試みを行ってきました。しかし、これらの取り組みの中で、テキストから画像への拡散モデルの訓練における重要な疑問がほとんど未解明のまま残されていました:テキストエンコーダをファインチューニングすることで、テキストから画像への拡散モデルの性能を向上させることは可能で、かつ実現可能なのか?私たちの研究結果は、Stable Diffusionで使用されているCLIPテキストエンコーダを他の大規模言語モデルに置き換えるのではなく、私たちが提案するファインチューニング手法TextCraftorを通じて強化することで、定量的なベンチマークと人間による評価の両方で大幅な改善が可能であることを明らかにしました。興味深いことに、私たちの技術は、異なる報酬でファインチューニングされた複数のテキストエンコーダを補間することで、制御可能な画像生成も可能にします。また、TextCraftorはUNetのファインチューニングと直交しており、組み合わせることで生成品質をさらに向上させることができることも実証しました。
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have revolutionized the field of content generation, enabling significant advancements in areas like image editing and video synthesis. Despite their formidable capabilities, these models are not without their limitations. It is still challenging to synthesize an image that aligns well with the input text, and multiple runs with carefully crafted prompts are required to achieve satisfactory results. To mitigate these limitations, numerous studies have endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing various technologies. Yet, amidst these efforts, a pivotal question of text-to-image diffusion model training has remained largely unexplored: Is it possible and feasible to fine-tune the text encoder to improve the performance of text-to-image diffusion models? Our findings reveal that, instead of replacing the CLIP text encoder used in Stable Diffusion with other large language models, we can enhance it through our proposed fine-tuning approach, TextCraftor, leading to substantial improvements in quantitative benchmarks and human assessments. Interestingly, our technique also empowers controllable image generation through the interpolation of different text encoders fine-tuned with various rewards. We also demonstrate that TextCraftor is orthogonal to UNet finetuning, and can be combined to further improve generative quality.

Summary

AI-Generated Summary

PDF151December 15, 2024