Mar 27
ByYanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
拡散モデルに基づくテキストから画像への生成モデル、例えばStable Diffusionは、コンテンツ生成の分野に革命をもたらし、画像編集や映像合成などの領域で大きな進展を可能にしました。しかし、これらのモデルには限界も存在します。入力テキストとよく一致する画像を合成することは依然として難しく、満足のいく結果を得るためには入念に設計されたプロンプトを用いた複数回の実行が必要です。これらの制約を緩和するため、多くの研究が事前学習済みの拡散モデル(UNetなど)を様々な技術を用いてファインチューニングする試みを行ってきました。しかし、これらの取り組みの中で、テキストから画像への拡散モデルの訓練における重要な疑問がほとんど未解明のまま残されていました:テキストエンコーダをファインチューニングすることで、テキストから画像への拡散モデルの性能を向上させることは可能で、かつ実現可能なのか?私たちの研究結果は、Stable Diffusionで使用されているCLIPテキストエンコーダを他の大規模言語モデルに置き換えるのではなく、私たちが提案するファインチューニング手法TextCraftorを通じて強化することで、定量的なベンチマークと人間による評価の両方で大幅な改善が可能であることを明らかにしました。興味深いことに、私たちの技術は、異なる報酬でファインチューニングされた複数のテキストエンコーダを補間することで、制御可能な画像生成も可能にします。また、TextCraftorはUNetのファインチューニングと直交しており、組み合わせることで生成品質をさらに向上させることができることも実証しました。