SUR-adapter : Amélioration des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte grâce aux grands modèles de langage

Résumé

Les modèles de diffusion, devenus populaires pour la génération d'images à partir de texte, sont capables de produire des images de haute qualité et riches en contenu guidées par des instructions textuelles. Cependant, les modèles existants présentent des limites en matière de compréhension sémantique et de raisonnement de bon sens lorsque les instructions d'entrée sont des récits concis, ce qui entraîne une génération d'images de faible qualité. Pour améliorer les capacités de ces modèles face à des instructions narratives, nous proposons une approche de fine-tuning efficace en termes de paramètres, appelée Semantic Understanding and Reasoning adapter (SUR-adapter), adaptée aux modèles de diffusion pré-entraînés. Pour atteindre cet objectif, nous collectons et annotons d'abord un nouveau jeu de données, SURD, composé de plus de 57 000 échantillons multimodaux sémantiquement corrigés. Chaque échantillon contient une instruction narrative simple, une instruction complexe basée sur des mots-clés et une image de haute qualité. Ensuite, nous alignons la représentation sémantique des instructions narratives sur celle des instructions complexes et transférons les connaissances des grands modèles de langage (LLMs) à notre SUR-adapter via une distillation de connaissances, lui permettant ainsi d'acquérir des capacités puissantes de compréhension et de raisonnement sémantique pour construire une représentation sémantique textuelle de haute qualité pour la génération d'images à partir de texte. Nous menons des expériences en intégrant plusieurs LLMs et des modèles de diffusion pré-entraînés populaires pour démontrer l'efficacité de notre approche à permettre aux modèles de diffusion de comprendre et de raisonner sur le langage naturel concis sans dégradation de la qualité de l'image. Notre approche rend les modèles de diffusion pour la génération d'images à partir de texte plus faciles à utiliser avec une meilleure expérience utilisateur, ce qui montre que notre méthode a le potentiel de faire progresser le développement de modèles de génération d'images à partir de texte conviviaux en comblant l'écart sémantique entre les instructions narratives simples et les instructions complexes basées sur des mots-clés.

English

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts.

SUR-adapter : Amélioration des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte grâce aux grands modèles de langage

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

Résumé

Support