ChatPaper.aiChatPaper

Emu: 干し草の山の中のフォトジェニックな針を用いて画像生成モデルを強化する

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

September 27, 2023
著者: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI

要旨

ウェブスケールの画像-テキストペアを用いてテキストから画像を生成するモデルを訓練することで、幅広い視覚的概念をテキストから生成することが可能になります。しかし、これらの事前学習済みモデルは、高度に美的な画像を生成する際に課題に直面することがしばしばあります。これにより、事前学習後の美的アライメントの必要性が生じます。本論文では、事前学習済みモデルを効果的に誘導し、視覚的概念の一般性を維持しながら、高度に視覚的に魅力的な画像のみを生成するための品質チューニングを提案します。私たちの重要な洞察は、驚くほど小規模だが極めて視覚的に魅力的な画像セットを用いた教師ありファインチューニングが、生成品質を大幅に向上させることができるという点です。私たちは、11億の画像-テキストペアで潜在拡散モデルを事前学習し、わずか数千の厳選された高品質画像でファインチューニングを行いました。その結果得られたモデル、Emuは、事前学習のみのモデルと比較して82.9%の勝率を達成しました。また、最先端のSDXLv1.0と比較して、Emuは標準的なPartiPromptsおよびテキストから画像を生成するモデルの実世界の使用に基づく私たちのOpen User Inputベンチマークにおいて、視覚的魅力において68.4%および71.3%の好まれ率を示しました。さらに、品質チューニングが、ピクセル拡散モデルやマスク生成トランスフォーマーモデルを含む他のアーキテクチャに対しても有効な汎用的なアプローチであることを示します。
English
Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on 1.1 billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of 82.9% compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred 68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.
PDF329December 15, 2024