Emu : Amélioration des modèles de génération d'images grâce à l'utilisation d'aiguilles photogéniques dans une botte de foin
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
September 27, 2023
Auteurs: Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh
cs.AI
Résumé
L'entraînement de modèles texte-image avec des paires image-texte à l'échelle du web permet la génération d'une large gamme de concepts visuels à partir de texte. Cependant, ces modèles pré-entraînés rencontrent souvent des difficultés pour générer des images hautement esthétiques. Cela crée un besoin d'alignement esthétique après le pré-entraînement. Dans cet article, nous proposons un ajustement de qualité pour guider efficacement un modèle pré-entraîné à générer exclusivement des images visuellement attrayantes, tout en maintenant une généralité à travers les concepts visuels. Notre idée clé est qu'un fine-tuning supervisé avec un ensemble étonnamment petit mais extrêmement visuellement attrayant d'images peut considérablement améliorer la qualité de génération. Nous pré-entraînons un modèle de diffusion latente sur 1,1 milliard de paires image-texte et l'ajustons avec seulement quelques milliers d'images soigneusement sélectionnées pour leur haute qualité. Le modèle résultant, Emu, atteint un taux de victoire de 82,9 % par rapport à sa version uniquement pré-entraînée. Comparé au modèle de pointe SDXLv1.0, Emu est préféré 68,4 % et 71,3 % du temps pour son attrait visuel sur les benchmarks standard PartiPrompts et notre Open User Input basé sur l'utilisation réelle des modèles texte-image. De plus, nous montrons que l'ajustement de qualité est une approche générique qui est également efficace pour d'autres architectures, y compris les modèles de diffusion sur pixels et les transformateurs génératifs masqués.
English
Training text-to-image models with web scale image-text pairs enables the
generation of a wide range of visual concepts from text. However, these
pre-trained models often face challenges when it comes to generating highly
aesthetic images. This creates the need for aesthetic alignment post
pre-training. In this paper, we propose quality-tuning to effectively guide a
pre-trained model to exclusively generate highly visually appealing images,
while maintaining generality across visual concepts. Our key insight is that
supervised fine-tuning with a set of surprisingly small but extremely visually
appealing images can significantly improve the generation quality. We pre-train
a latent diffusion model on 1.1 billion image-text pairs and fine-tune it
with only a few thousand carefully selected high-quality images. The resulting
model, Emu, achieves a win rate of 82.9% compared with its pre-trained only
counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred
68.4% and 71.3% of the time on visual appeal on the standard PartiPrompts
and our Open User Input benchmark based on the real-world usage of
text-to-image models. In addition, we show that quality-tuning is a generic
approach that is also effective for other architectures, including pixel
diffusion and masked generative transformer models.