SUR-adapter: Verbetering van vooraf getrainde diffusiemodellen voor tekst-naar-beeld met grote taalmodellen
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
May 9, 2023
Auteurs: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
cs.AI
Samenvatting
Diffusiemodellen, die populair zijn geworden als tekst-naar-beeldgeneratiemodellen, kunnen hoogwaardige en inhoudsrijke afbeeldingen produceren die worden gestuurd door tekstuele prompts. Er zijn echter beperkingen in het semantisch begrip en het gezond-verstand-redeneren bij bestaande modellen wanneer de invoerprompts beknopte verhalen zijn, wat resulteert in afbeeldingen van lage kwaliteit. Om de capaciteiten voor verhalende prompts te verbeteren, stellen we een eenvoudige maar effectieve parameter-efficiënte fine-tuningbenadering voor, genaamd de Semantic Understanding and Reasoning adapter (SUR-adapter), voor vooraf getrainde diffusiemodellen. Om dit doel te bereiken, verzamelen en annoteren we eerst een nieuwe dataset, SURD, die bestaat uit meer dan 57.000 semantisch gecorrigeerde multimodale samples. Elk sample bevat een eenvoudige verhalende prompt, een complexe op trefwoorden gebaseerde prompt en een hoogwaardige afbeelding. Vervolgens stellen we de semantische representatie van verhalende prompts af op de complexe prompts en transfereren we kennis van grote taalmmodellen (LLMs) naar onze SUR-adapter via kennisdistillatie, zodat deze de krachtige semantische begrips- en redeneercapaciteiten kan verwerven om een hoogwaardige tekstuele semantische representatie te bouwen voor tekst-naar-beeldgeneratie. We voeren experimenten uit door meerdere LLMs en populaire vooraf getrainde diffusiemodellen te integreren om de effectiviteit van onze benadering aan te tonen in het mogelijk maken van diffusiemodellen om beknopte natuurlijke taal te begrijpen en te redeneren zonder kwaliteitsverlies van de afbeelding. Onze benadering kan tekst-naar-beeld diffusiemodellen gebruiksvriendelijker maken met een betere gebruikerservaring, wat aantoont dat onze benadering het potentieel heeft om de ontwikkeling van gebruiksvriendelijke tekst-naar-beeldgeneratiemodellen verder te bevorderen door de semantische kloof tussen eenvoudige verhalende prompts en complexe op trefwoorden gebaseerde prompts te overbruggen.
English
Diffusion models, which have emerged to become popular text-to-image
generation models, can produce high-quality and content-rich images guided by
textual prompts. However, there are limitations to semantic understanding and
commonsense reasoning in existing models when the input prompts are concise
narrative, resulting in low-quality image generation. To improve the capacities
for narrative prompts, we propose a simple-yet-effective parameter-efficient
fine-tuning approach called the Semantic Understanding and Reasoning adapter
(SUR-adapter) for pre-trained diffusion models. To reach this goal, we first
collect and annotate a new dataset SURD which consists of more than 57,000
semantically corrected multi-modal samples. Each sample contains a simple
narrative prompt, a complex keyword-based prompt, and a high-quality image.
Then, we align the semantic representation of narrative prompts to the complex
prompts and transfer knowledge of large language models (LLMs) to our
SUR-adapter via knowledge distillation so that it can acquire the powerful
semantic understanding and reasoning capabilities to build a high-quality
textual semantic representation for text-to-image generation. We conduct
experiments by integrating multiple LLMs and popular pre-trained diffusion
models to show the effectiveness of our approach in enabling diffusion models
to understand and reason concise natural language without image quality
degradation. Our approach can make text-to-image diffusion models easier to use
with better user experience, which demonstrates our approach has the potential
for further advancing the development of user-friendly text-to-image generation
models by bridging the semantic gap between simple narrative prompts and
complex keyword-based prompts.