SUR-Adapter: Verbesserung vortrainierter Diffusionsmodelle für Text-zu-Bild-Generierung mit großen Sprachmodellen
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
May 9, 2023
Autoren: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
cs.AI
Zusammenfassung
Diffusionsmodelle, die sich zu beliebten Text-zu-Bild-Generierungsmodellen entwickelt haben, können hochwertige und inhaltsreiche Bilder anhand von textuellen Eingabeaufforderungen erzeugen. Allerdings gibt es bei bestehenden Modellen Einschränkungen im semantischen Verständnis und im gesunden Menschenverstand, insbesondere wenn die Eingabeaufforderungen knappe Erzählungen sind, was zu einer minderwertigen Bildgenerierung führt. Um die Fähigkeiten für narrative Eingabeaufforderungen zu verbessern, schlagen wir einen einfachen, aber effektiven parameter-effizienten Feinabstimmungsansatz vor, den sogenannten Semantic Understanding and Reasoning Adapter (SUR-Adapter) für vortrainierte Diffusionsmodelle. Um dieses Ziel zu erreichen, sammeln und annotieren wir zunächst einen neuen Datensatz SURD, der aus mehr als 57.000 semantisch korrigierten multimodalen Beispielen besteht. Jedes Beispiel enthält eine einfache narrative Eingabeaufforderung, eine komplexe schlüsselwortbasierte Eingabeaufforderung und ein hochwertiges Bild. Anschließend gleichen wir die semantische Darstellung der narrativen Eingabeaufforderungen an die komplexen Eingabeaufforderungen an und übertragen das Wissen von großen Sprachmodellen (LLMs) über Wissensdestillation auf unseren SUR-Adapter, damit dieser die leistungsstarken Fähigkeiten zum semantischen Verständnis und zur Schlussfolgerung erwerben kann, um eine hochwertige textuelle semantische Darstellung für die Text-zu-Bild-Generierung zu erstellen. Wir führen Experimente durch, indem wir mehrere LLMs und beliebte vortrainierte Diffusionsmodelle integrieren, um die Wirksamkeit unseres Ansatzes zu zeigen, der es Diffusionsmodellen ermöglicht, prägnante natürliche Sprache zu verstehen und zu interpretieren, ohne die Bildqualität zu beeinträchtigen. Unser Ansatz kann Text-zu-Bild-Diffusionsmodelle einfacher zu bedienen machen und die Benutzererfahrung verbessern, was zeigt, dass unser Ansatz das Potenzial hat, die Entwicklung benutzerfreundlicher Text-zu-Bild-Generierungsmodelle weiter voranzutreiben, indem er die semantische Lücke zwischen einfachen narrativen Eingabeaufforderungen und komplexen schlüsselwortbasierten Eingabeaufforderungen überbrückt.
English
Diffusion models, which have emerged to become popular text-to-image
generation models, can produce high-quality and content-rich images guided by
textual prompts. However, there are limitations to semantic understanding and
commonsense reasoning in existing models when the input prompts are concise
narrative, resulting in low-quality image generation. To improve the capacities
for narrative prompts, we propose a simple-yet-effective parameter-efficient
fine-tuning approach called the Semantic Understanding and Reasoning adapter
(SUR-adapter) for pre-trained diffusion models. To reach this goal, we first
collect and annotate a new dataset SURD which consists of more than 57,000
semantically corrected multi-modal samples. Each sample contains a simple
narrative prompt, a complex keyword-based prompt, and a high-quality image.
Then, we align the semantic representation of narrative prompts to the complex
prompts and transfer knowledge of large language models (LLMs) to our
SUR-adapter via knowledge distillation so that it can acquire the powerful
semantic understanding and reasoning capabilities to build a high-quality
textual semantic representation for text-to-image generation. We conduct
experiments by integrating multiple LLMs and popular pre-trained diffusion
models to show the effectiveness of our approach in enabling diffusion models
to understand and reason concise natural language without image quality
degradation. Our approach can make text-to-image diffusion models easier to use
with better user experience, which demonstrates our approach has the potential
for further advancing the development of user-friendly text-to-image generation
models by bridging the semantic gap between simple narrative prompts and
complex keyword-based prompts.