SUR-adapter : Amélioration des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte grâce aux grands modèles de langage
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
May 9, 2023
Auteurs: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
cs.AI
Résumé
Les modèles de diffusion, devenus populaires pour la génération d'images à partir de texte, sont capables de produire des images de haute qualité et riches en contenu guidées par des instructions textuelles. Cependant, les modèles existants présentent des limites en matière de compréhension sémantique et de raisonnement de bon sens lorsque les instructions d'entrée sont des récits concis, ce qui entraîne une génération d'images de faible qualité. Pour améliorer les capacités de ces modèles face à des instructions narratives, nous proposons une approche de fine-tuning efficace en termes de paramètres, appelée Semantic Understanding and Reasoning adapter (SUR-adapter), adaptée aux modèles de diffusion pré-entraînés. Pour atteindre cet objectif, nous collectons et annotons d'abord un nouveau jeu de données, SURD, composé de plus de 57 000 échantillons multimodaux sémantiquement corrigés. Chaque échantillon contient une instruction narrative simple, une instruction complexe basée sur des mots-clés et une image de haute qualité. Ensuite, nous alignons la représentation sémantique des instructions narratives sur celle des instructions complexes et transférons les connaissances des grands modèles de langage (LLMs) à notre SUR-adapter via une distillation de connaissances, lui permettant ainsi d'acquérir des capacités puissantes de compréhension et de raisonnement sémantique pour construire une représentation sémantique textuelle de haute qualité pour la génération d'images à partir de texte. Nous menons des expériences en intégrant plusieurs LLMs et des modèles de diffusion pré-entraînés populaires pour démontrer l'efficacité de notre approche à permettre aux modèles de diffusion de comprendre et de raisonner sur le langage naturel concis sans dégradation de la qualité de l'image. Notre approche rend les modèles de diffusion pour la génération d'images à partir de texte plus faciles à utiliser avec une meilleure expérience utilisateur, ce qui montre que notre méthode a le potentiel de faire progresser le développement de modèles de génération d'images à partir de texte conviviaux en comblant l'écart sémantique entre les instructions narratives simples et les instructions complexes basées sur des mots-clés.
English
Diffusion models, which have emerged to become popular text-to-image
generation models, can produce high-quality and content-rich images guided by
textual prompts. However, there are limitations to semantic understanding and
commonsense reasoning in existing models when the input prompts are concise
narrative, resulting in low-quality image generation. To improve the capacities
for narrative prompts, we propose a simple-yet-effective parameter-efficient
fine-tuning approach called the Semantic Understanding and Reasoning adapter
(SUR-adapter) for pre-trained diffusion models. To reach this goal, we first
collect and annotate a new dataset SURD which consists of more than 57,000
semantically corrected multi-modal samples. Each sample contains a simple
narrative prompt, a complex keyword-based prompt, and a high-quality image.
Then, we align the semantic representation of narrative prompts to the complex
prompts and transfer knowledge of large language models (LLMs) to our
SUR-adapter via knowledge distillation so that it can acquire the powerful
semantic understanding and reasoning capabilities to build a high-quality
textual semantic representation for text-to-image generation. We conduct
experiments by integrating multiple LLMs and popular pre-trained diffusion
models to show the effectiveness of our approach in enabling diffusion models
to understand and reason concise natural language without image quality
degradation. Our approach can make text-to-image diffusion models easier to use
with better user experience, which demonstrates our approach has the potential
for further advancing the development of user-friendly text-to-image generation
models by bridging the semantic gap between simple narrative prompts and
complex keyword-based prompts.