SUR-adapter: Potenziamento dei modelli di diffusione pre-addestrati per la generazione di immagini da testo con l'utilizzo di grandi modelli linguistici
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
May 9, 2023
Autori: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
cs.AI
Abstract
I modelli di diffusione, emersi come popolari modelli di generazione di immagini da testo, sono in grado di produrre immagini di alta qualità e ricche di contenuti guidati da prompt testuali. Tuttavia, i modelli esistenti presentano limitazioni nella comprensione semantica e nel ragionamento di buon senso quando i prompt di input sono narrazioni concise, risultando in una generazione di immagini di bassa qualità. Per migliorare le capacità di gestione dei prompt narrativi, proponiamo un approccio di fine-tuning efficiente in termini di parametri, semplice ma efficace, chiamato Semantic Understanding and Reasoning adapter (SUR-adapter), per modelli di diffusione pre-addestrati. Per raggiungere questo obiettivo, abbiamo prima raccolto e annotato un nuovo dataset chiamato SURD, che consiste in più di 57.000 campioni multimodali semanticamente corretti. Ogni campione contiene un prompt narrativo semplice, un prompt complesso basato su parole chiave e un'immagine di alta qualità. Successivamente, allineiamo la rappresentazione semantica dei prompt narrativi a quella dei prompt complessi e trasferiamo la conoscenza dei grandi modelli linguistici (LLM) al nostro SUR-adapter attraverso la distillazione della conoscenza, in modo che possa acquisire potenti capacità di comprensione e ragionamento semantico per costruire una rappresentazione semantica testuale di alta qualità per la generazione di immagini da testo. Abbiamo condotto esperimenti integrando più LLM e popolari modelli di diffusione pre-addestrati per dimostrare l'efficacia del nostro approccio nel consentire ai modelli di diffusione di comprendere e ragionare su un linguaggio naturale conciso senza degradazione della qualità dell'immagine. Il nostro approccio può rendere i modelli di diffusione per la generazione di immagini da testo più facili da usare con una migliore esperienza utente, dimostrando che il nostro metodo ha il potenziale per avanzare ulteriormente lo sviluppo di modelli di generazione di immagini da testo user-friendly, colmando il divario semantico tra prompt narrativi semplici e prompt complessi basati su parole chiave.
English
Diffusion models, which have emerged to become popular text-to-image
generation models, can produce high-quality and content-rich images guided by
textual prompts. However, there are limitations to semantic understanding and
commonsense reasoning in existing models when the input prompts are concise
narrative, resulting in low-quality image generation. To improve the capacities
for narrative prompts, we propose a simple-yet-effective parameter-efficient
fine-tuning approach called the Semantic Understanding and Reasoning adapter
(SUR-adapter) for pre-trained diffusion models. To reach this goal, we first
collect and annotate a new dataset SURD which consists of more than 57,000
semantically corrected multi-modal samples. Each sample contains a simple
narrative prompt, a complex keyword-based prompt, and a high-quality image.
Then, we align the semantic representation of narrative prompts to the complex
prompts and transfer knowledge of large language models (LLMs) to our
SUR-adapter via knowledge distillation so that it can acquire the powerful
semantic understanding and reasoning capabilities to build a high-quality
textual semantic representation for text-to-image generation. We conduct
experiments by integrating multiple LLMs and popular pre-trained diffusion
models to show the effectiveness of our approach in enabling diffusion models
to understand and reason concise natural language without image quality
degradation. Our approach can make text-to-image diffusion models easier to use
with better user experience, which demonstrates our approach has the potential
for further advancing the development of user-friendly text-to-image generation
models by bridging the semantic gap between simple narrative prompts and
complex keyword-based prompts.