TextCraftor: Seu Codificador de Texto Pode Ser um Controlador de Qualidade de Imagem
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Autores: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Resumo
Modelos generativos de texto para imagem baseados em difusão, como o Stable Diffusion, revolucionaram o campo de geração de conteúdo, permitindo avanços significativos em áreas como edição de imagens e síntese de vídeo. Apesar de suas capacidades impressionantes, esses modelos não estão isentos de limitações. Ainda é desafiador sintetizar uma imagem que se alinhe bem com o texto de entrada, sendo necessárias múltiplas execuções com prompts cuidadosamente elaborados para obter resultados satisfatórios. Para mitigar essas limitações, diversos estudos têm se empenhado em ajustar os modelos de difusão pré-treinados, como o UNet, utilizando diversas tecnologias. No entanto, em meio a esses esforços, uma questão crucial sobre o treinamento de modelos de difusão de texto para imagem permaneceu amplamente inexplorada: É possível e viável ajustar o codificador de texto para melhorar o desempenho dos modelos de difusão de texto para imagem? Nossas descobertas revelam que, em vez de substituir o codificador de texto CLIP usado no Stable Diffusion por outros modelos de linguagem de grande escala, podemos aprimorá-lo por meio de nossa abordagem proposta de ajuste fino, o TextCraftor, resultando em melhorias substanciais em benchmarks quantitativos e avaliações humanas. Curiosamente, nossa técnica também possibilita a geração controlada de imagens por meio da interpolação de diferentes codificadores de texto ajustados com várias recompensas. Também demonstramos que o TextCraftor é ortogonal ao ajuste fino do UNet e pode ser combinado para melhorar ainda mais a qualidade gerativa.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.