TextCraftor: Il Tuo Codificatore di Testo Può Essere un Controllore della Qualità delle Immagini
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Autori: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Abstract
I modelli generativi testo-immagine basati su diffusione, come Stable Diffusion, hanno rivoluzionato il campo della generazione di contenuti, consentendo progressi significativi in aree come l'editing di immagini e la sintesi video. Nonostante le loro formidabili capacità, questi modelli non sono privi di limitazioni. È ancora impegnativo sintetizzare un'immagine che si allinei bene con il testo di input, e sono necessarie molteplici esecuzioni con prompt accuratamente progettati per ottenere risultati soddisfacenti. Per mitigare queste limitazioni, numerosi studi si sono impegnati a perfezionare i modelli di diffusione pre-addestrati, come UNet, utilizzando varie tecnologie. Tuttavia, in mezzo a questi sforzi, una domanda cruciale sull'addestramento dei modelli di diffusione testo-immagine è rimasta in gran parte inesplorata: è possibile e fattibile perfezionare l'encoder di testo per migliorare le prestazioni dei modelli di diffusione testo-immagine? Le nostre scoperte rivelano che, invece di sostituire l'encoder di testo CLIP utilizzato in Stable Diffusion con altri modelli linguistici di grandi dimensioni, possiamo migliorarlo attraverso il nostro approccio di perfezionamento proposto, TextCraftor, portando a miglioramenti sostanziali nei benchmark quantitativi e nelle valutazioni umane. È interessante notare che la nostra tecnica consente anche la generazione controllata di immagini attraverso l'interpolazione di diversi encoder di testo perfezionati con varie ricompense. Dimostriamo inoltre che TextCraftor è ortogonale al perfezionamento di UNet e può essere combinato per migliorare ulteriormente la qualità generativa.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.