TextCraftor: Il Tuo Codificatore di Testo Può Essere un Controllore della Qualità delle Immagini

Abstract

I modelli generativi testo-immagine basati su diffusione, come Stable Diffusion, hanno rivoluzionato il campo della generazione di contenuti, consentendo progressi significativi in aree come l'editing di immagini e la sintesi video. Nonostante le loro formidabili capacità, questi modelli non sono privi di limitazioni. È ancora impegnativo sintetizzare un'immagine che si allinei bene con il testo di input, e sono necessarie molteplici esecuzioni con prompt accuratamente progettati per ottenere risultati soddisfacenti. Per mitigare queste limitazioni, numerosi studi si sono impegnati a perfezionare i modelli di diffusione pre-addestrati, come UNet, utilizzando varie tecnologie. Tuttavia, in mezzo a questi sforzi, una domanda cruciale sull'addestramento dei modelli di diffusione testo-immagine è rimasta in gran parte inesplorata: è possibile e fattibile perfezionare l'encoder di testo per migliorare le prestazioni dei modelli di diffusione testo-immagine? Le nostre scoperte rivelano che, invece di sostituire l'encoder di testo CLIP utilizzato in Stable Diffusion con altri modelli linguistici di grandi dimensioni, possiamo migliorarlo attraverso il nostro approccio di perfezionamento proposto, TextCraftor, portando a miglioramenti sostanziali nei benchmark quantitativi e nelle valutazioni umane. È interessante notare che la nostra tecnica consente anche la generazione controllata di immagini attraverso l'interpolazione di diversi encoder di testo perfezionati con varie ricompense. Dimostriamo inoltre che TextCraftor è ortogonale al perfezionamento di UNet e può essere combinato per migliorare ulteriormente la qualità generativa.

English

Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have revolutionized the field of content generation, enabling significant advancements in areas like image editing and video synthesis. Despite their formidable capabilities, these models are not without their limitations. It is still challenging to synthesize an image that aligns well with the input text, and multiple runs with carefully crafted prompts are required to achieve satisfactory results. To mitigate these limitations, numerous studies have endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing various technologies. Yet, amidst these efforts, a pivotal question of text-to-image diffusion model training has remained largely unexplored: Is it possible and feasible to fine-tune the text encoder to improve the performance of text-to-image diffusion models? Our findings reveal that, instead of replacing the CLIP text encoder used in Stable Diffusion with other large language models, we can enhance it through our proposed fine-tuning approach, TextCraftor, leading to substantial improvements in quantitative benchmarks and human assessments. Interestingly, our technique also empowers controllable image generation through the interpolation of different text encoders fine-tuned with various rewards. We also demonstrate that TextCraftor is orthogonal to UNet finetuning, and can be combined to further improve generative quality.

TextCraftor: Il Tuo Codificatore di Testo Può Essere un Controllore della Qualità delle Immagini

TextCraftor: Your Text Encoder Can be Image Quality Controller

Abstract

Support