TextCraftor: Tu Codificador de Texto Puede Ser un Controlador de Calidad de Imagen
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Autores: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Resumen
Los modelos generativos de texto a imagen basados en difusión, como Stable Diffusion, han revolucionado el campo de la generación de contenido, permitiendo avances significativos en áreas como la edición de imágenes y la síntesis de video. A pesar de sus formidables capacidades, estos modelos no están exentos de limitaciones. Todavía es un desafío sintetizar una imagen que se alinee bien con el texto de entrada, y se requieren múltiples ejecuciones con indicaciones cuidadosamente elaboradas para obtener resultados satisfactorios. Para mitigar estas limitaciones, numerosos estudios han intentado ajustar los modelos de difusión preentrenados, como UNet, utilizando diversas tecnologías. Sin embargo, en medio de estos esfuerzos, una pregunta fundamental sobre el entrenamiento de modelos de difusión de texto a imagen ha permanecido en gran parte inexplorada: ¿Es posible y factible ajustar el codificador de texto para mejorar el rendimiento de los modelos de difusión de texto a imagen? Nuestros hallazgos revelan que, en lugar de reemplazar el codificador de texto CLIP utilizado en Stable Diffusion con otros modelos de lenguaje grandes, podemos mejorarlo mediante nuestro enfoque propuesto de ajuste fino, TextCraftor, lo que conduce a mejoras sustanciales en evaluaciones cuantitativas y humanas. Curiosamente, nuestra técnica también permite la generación controlada de imágenes mediante la interpolación de diferentes codificadores de texto ajustados con diversas recompensas. También demostramos que TextCraftor es ortogonal al ajuste fino de UNet y puede combinarse para mejorar aún más la calidad generativa.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.Summary
AI-Generated Summary