TextCraftor: Ваш текстовый кодировщик может быть контролером качества изображения.
TextCraftor: Your Text Encoder Can be Image Quality Controller
March 27, 2024
Авторы: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI
Аннотация
Модели генерации изображений на основе диффузии, например, устойчивая диффузия, революционизировали область генерации контента, обеспечив значительные прорывы в областях редактирования изображений и синтеза видео. Несмотря на их впечатляющие возможности, у этих моделей есть свои ограничения. По-прежнему сложно синтезировать изображение, которое хорошо соответствует входному тексту, и требуется несколько запусков с тщательно разработанными подсказками для достижения удовлетворительных результатов. Для устранения этих ограничений было предпринято множество исследований по настройке заранее обученных моделей диффузии, таких как UNet, с использованием различных технологий. Тем не менее, среди этих усилий ключевой вопрос обучения модели диффузии текста в изображение остается в значительной степени неисследованным: возможно ли и целесообразно настраивать текстовый кодер для улучшения производительности моделей диффузии текста в изображение? Наши результаты показывают, что вместо замены текстового кодера CLIP, используемого в устойчивой диффузии, на другие большие языковые модели, мы можем улучшить его с помощью предложенного нами подхода к настройке, TextCraftor, что приводит к существенным улучшениям в количественных бенчмарках и оценках людей. Интересно, что наша техника также обеспечивает возможность контролируемой генерации изображений путем интерполяции различных текстовых кодеров, настроенных с различными вознаграждениями. Мы также демонстрируем, что TextCraftor ортогонален настройке UNet и может быть объединен для дальнейшего улучшения качества генерации.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have
revolutionized the field of content generation, enabling significant
advancements in areas like image editing and video synthesis. Despite their
formidable capabilities, these models are not without their limitations. It is
still challenging to synthesize an image that aligns well with the input text,
and multiple runs with carefully crafted prompts are required to achieve
satisfactory results. To mitigate these limitations, numerous studies have
endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing
various technologies. Yet, amidst these efforts, a pivotal question of
text-to-image diffusion model training has remained largely unexplored: Is it
possible and feasible to fine-tune the text encoder to improve the performance
of text-to-image diffusion models? Our findings reveal that, instead of
replacing the CLIP text encoder used in Stable Diffusion with other large
language models, we can enhance it through our proposed fine-tuning approach,
TextCraftor, leading to substantial improvements in quantitative benchmarks and
human assessments. Interestingly, our technique also empowers controllable
image generation through the interpolation of different text encoders
fine-tuned with various rewards. We also demonstrate that TextCraftor is
orthogonal to UNet finetuning, and can be combined to further improve
generative quality.Summary
AI-Generated Summary