TextCraftor: Jouw Tekstencoder Kan Beeldkwaliteitscontroller Zijn
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Auteurs: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Samenvatting
Diffusiegebaseerde tekst-naar-beeld generatieve modellen, zoals Stable Diffusion, hebben een revolutie teweeggebracht in het veld van contentgeneratie, waardoor aanzienlijke vooruitgang is geboekt op gebieden zoals beeldbewerking en videosynthese. Ondanks hun indrukwekkende mogelijkheden zijn deze modellen niet zonder beperkingen. Het blijft een uitdaging om een beeld te synthetiseren dat goed aansluit bij de ingevoerde tekst, en er zijn meerdere runs met zorgvuldig opgestelde prompts nodig om bevredigende resultaten te bereiken. Om deze beperkingen te verminderen, hebben talrijke studies geprobeerd om de vooraf getrainde diffusiemodellen, zoals UNet, te verfijnen met behulp van verschillende technologieën. Toch is er binnen deze inspanningen een cruciale vraag over de training van tekst-naar-beeld diffusiemodellen grotendeels onontgonnen gebleven: Is het mogelijk en haalbaar om de tekstencoder te verfijnen om de prestaties van tekst-naar-beeld diffusiemodellen te verbeteren? Onze bevindingen onthullen dat, in plaats van de CLIP-tekstencoder die in Stable Diffusion wordt gebruikt te vervangen door andere grote taalmodellen, we deze kunnen verbeteren via onze voorgestelde verfijningsaanpak, TextCraftor, wat leidt tot aanzienlijke verbeteringen in kwantitatieve benchmarks en menselijke beoordelingen. Interessant genoeg stelt onze techniek ook gecontroleerde beeldgeneratie mogelijk door de interpolatie van verschillende tekstencoders die zijn verfijnd met verschillende beloningen. We tonen ook aan dat TextCraftor orthogonaal is aan UNet-verfijning, en gecombineerd kan worden om de generatieve kwaliteit verder te verbeteren.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.