ChatPaper.aiChatPaper

TextCraftor: 텍스트 인코더가 이미지 품질 컨트롤러가 될 수 있습니다

TextCraftor: Your Text Encoder Can be Image Quality Controller

March 27, 2024
저자: Yanyu Li, Xian Liu, Anil Kag, Ju Hu, Yerlan Idelbayev, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov, Jian Ren
cs.AI

초록

확산 기반 텍스트-이미지 생성 모델(예: Stable Diffusion)은 콘텐츠 생성 분야에 혁신을 가져왔으며, 이미지 편집 및 비디오 합성과 같은 영역에서 상당한 발전을 이끌었습니다. 그러나 이러한 모델들도 한계가 없는 것은 아닙니다. 입력 텍스트와 잘 일치하는 이미지를 합성하는 것은 여전히 어려운 과제이며, 만족스러운 결과를 얻기 위해서는 신중하게 설계된 프롬프트를 사용한 여러 번의 실행이 필요합니다. 이러한 한계를 완화하기 위해, 다양한 기술을 활용하여 사전 학습된 확산 모델(예: UNet)을 미세 조정하려는 수많은 연구가 진행되어 왔습니다. 그러나 이러한 노력 속에서도 텍스트-이미지 확산 모델 훈련의 핵심적인 질문은 크게 탐구되지 않은 채 남아 있었습니다: 텍스트 인코더를 미세 조정하여 텍스트-이미지 확산 모델의 성능을 개선하는 것이 가능하고 실현 가능한가? 우리의 연구 결과는 Stable Diffusion에서 사용되는 CLIP 텍스트 인코더를 다른 대규모 언어 모델로 교체하는 대신, 우리가 제안한 미세 조정 접근 방식인 TextCraftor를 통해 이를 개선할 수 있으며, 이는 정량적 벤치마크와 인간 평가에서 상당한 개선을 이끌어냄을 보여줍니다. 흥미롭게도, 우리의 기술은 다양한 보상으로 미세 조정된 다른 텍스트 인코더들의 보간을 통해 제어 가능한 이미지 생성도 가능하게 합니다. 또한 TextCraftor는 UNet 미세 조정과 직교적이며, 이를 결합하여 생성 품질을 더욱 향상시킬 수 있음을 입증합니다.
English
Diffusion-based text-to-image generative models, e.g., Stable Diffusion, have revolutionized the field of content generation, enabling significant advancements in areas like image editing and video synthesis. Despite their formidable capabilities, these models are not without their limitations. It is still challenging to synthesize an image that aligns well with the input text, and multiple runs with carefully crafted prompts are required to achieve satisfactory results. To mitigate these limitations, numerous studies have endeavored to fine-tune the pre-trained diffusion models, i.e., UNet, utilizing various technologies. Yet, amidst these efforts, a pivotal question of text-to-image diffusion model training has remained largely unexplored: Is it possible and feasible to fine-tune the text encoder to improve the performance of text-to-image diffusion models? Our findings reveal that, instead of replacing the CLIP text encoder used in Stable Diffusion with other large language models, we can enhance it through our proposed fine-tuning approach, TextCraftor, leading to substantial improvements in quantitative benchmarks and human assessments. Interestingly, our technique also empowers controllable image generation through the interpolation of different text encoders fine-tuned with various rewards. We also demonstrate that TextCraftor is orthogonal to UNet finetuning, and can be combined to further improve generative quality.

Summary

AI-Generated Summary

PDF151December 15, 2024