TextCraftor : Votre encodeur de texte peut devenir un contrôleur de qualité d'image
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Auteurs: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Résumé
Les modèles génératifs de texte-à-image basés sur la diffusion, comme Stable Diffusion, ont révolutionné le domaine de la génération de contenu, permettant des avancées significatives dans des domaines tels que l'édition d'images et la synthèse vidéo. Malgré leurs capacités impressionnantes, ces modèles ne sont pas sans limites. Il reste difficile de synthétiser une image qui s'aligne parfaitement avec le texte d'entrée, et plusieurs exécutions avec des prompts soigneusement conçus sont nécessaires pour obtenir des résultats satisfaisants. Pour atténuer ces limitations, de nombreuses études se sont efforcées d'affiner les modèles de diffusion pré-entraînés, comme l'UNet, en utilisant diverses technologies. Pourtant, au milieu de ces efforts, une question cruciale concernant l'entraînement des modèles de diffusion texte-à-image est restée largement inexplorée : est-il possible et réalisable d'affiner l'encodeur de texte pour améliorer les performances des modèles de diffusion texte-à-image ? Nos résultats révèlent qu'au lieu de remplacer l'encodeur de texte CLIP utilisé dans Stable Diffusion par d'autres grands modèles de langage, nous pouvons l'améliorer grâce à notre approche d'affinage proposée, TextCraftor, conduisant à des améliorations substantielles dans les benchmarks quantitatifs et les évaluations humaines. Fait intéressant, notre technique permet également une génération d'images contrôlable grâce à l'interpolation de différents encodeurs de texte affinés avec diverses récompenses. Nous démontrons également que TextCraftor est orthogonal à l'affinage de l'UNet et peut être combiné pour améliorer davantage la qualité générative.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.Summary
AI-Generated Summary