TextCraftor: Ihr Text-Encoder kann ein Bildqualitätsregler sein.
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Autoren: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Zusammenfassung
Text-zu-Bild-generative Modelle auf Diffusionsbasis, z. B. Stable Diffusion, haben das Feld der Inhaltegenerierung revolutioniert und signifikante Fortschritte in Bereichen wie Bildbearbeitung und Videosynthese ermöglicht. Trotz ihrer beeindruckenden Fähigkeiten sind diese Modelle nicht ohne ihre Einschränkungen. Es bleibt nach wie vor eine Herausforderung, ein Bild zu synthetisieren, das gut mit dem Eingabetext übereinstimmt, und mehrere Durchläufe mit sorgfältig ausgearbeiteten Anfragen sind erforderlich, um zufriedenstellende Ergebnisse zu erzielen. Um diese Einschränkungen zu mildern, haben zahlreiche Studien versucht, die vortrainierten Diffusionsmodelle, d. h. UNet, unter Verwendung verschiedener Technologien zu feinabzustimmen. Doch inmitten dieser Bemühungen bleibt eine entscheidende Frage zur Schulung von Text-zu-Bild-Diffusionsmodellen weitgehend unerforscht: Ist es möglich und sinnvoll, den Textkodierer zu feinabstimmen, um die Leistung der Text-zu-Bild-Diffusionsmodelle zu verbessern? Unsere Ergebnisse zeigen, dass wir anstelle des CLIP-Textkodierers, der in Stable Diffusion verwendet wird, durch unseren vorgeschlagenen Feinabstimmungsansatz, TextCraftor, verbessern können, was zu erheblichen Verbesserungen bei quantitativen Benchmarks und menschlichen Bewertungen führt. Interessanterweise ermöglicht unsere Technik auch eine kontrollierbare Bildgenerierung durch die Interpolation verschiedener Textkodierer, die mit verschiedenen Belohnungen feinabgestimmt wurden. Wir zeigen auch, dass TextCraftor orthogonal zur Feinabstimmung von UNet ist und kombiniert werden kann, um die generative Qualität weiter zu verbessern.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.Summary
AI-Generated Summary