Exploration du rôle des modèles de langage de grande taille dans l'encodage des prompts pour les modèles de diffusion
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
June 17, 2024
Auteurs: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu
cs.AI
Résumé
Les grands modèles de langage (LLM) basés sur des transformeurs décodeurs uniquement ont démontré des capacités de compréhension de texte supérieures par rapport aux modèles de la série CLIP et T5. Cependant, le paradigme pour exploiter les LLM avancés actuels dans les modèles de diffusion texte-image reste à explorer. Nous avons observé un phénomène inhabituel : l'utilisation directe d'un grand modèle de langage comme encodeur de prompt dégrade significativement la capacité à suivre les instructions dans la génération d'images. Nous avons identifié deux obstacles principaux derrière ce problème. Le premier est le désalignement entre l'entraînement à la prédiction du prochain token dans les LLM et la nécessité de caractéristiques discriminatives pour les prompts dans les modèles de diffusion. Le second est le biais positionnel intrinsèque introduit par l'architecture décodeur uniquement. Pour résoudre ce problème, nous proposons un nouveau cadre pour exploiter pleinement les capacités des LLM. Grâce à une utilisation soigneusement conçue, nous améliorons efficacement la capacité de représentation textuelle pour l'encodage des prompts et éliminons son biais positionnel inhérent. Cela nous permet d'intégrer les LLM de pointe dans le modèle de génération texte-image de manière flexible. De plus, nous proposons également une manière efficace de fusionner plusieurs LLM dans notre cadre. Considérant les excellentes performances et capacités de mise à l'échelle démontrées par l'architecture transformeur, nous concevons également un Transformeur de Diffusion Infusé par LLM (LI-DiT) basé sur ce cadre. Nous menons des expériences approfondies pour valider LI-DiT à travers différentes tailles de modèle et de données. Grâce aux capacités inhérentes des LLM et à nos conceptions innovantes, les performances de compréhension des prompts de LI-DiT surpassent facilement les modèles open-source de pointe ainsi que les modèles commerciaux fermés dominants, y compris Stable Diffusion 3, DALL-E 3 et Midjourney V6. Le puissant LI-DiT-10B sera disponible après des optimisations et vérifications de sécurité supplémentaires.
English
Large language models (LLMs) based on decoder-only transformers have
demonstrated superior text understanding capabilities compared to CLIP and
T5-series models. However, the paradigm for utilizing current advanced LLMs in
text-to-image diffusion models remains to be explored. We observed an unusual
phenomenon: directly using a large language model as the prompt encoder
significantly degrades the prompt-following ability in image generation. We
identified two main obstacles behind this issue. One is the misalignment
between the next token prediction training in LLM and the requirement for
discriminative prompt features in diffusion models. The other is the intrinsic
positional bias introduced by the decoder-only architecture. To deal with this
issue, we propose a novel framework to fully harness the capabilities of LLMs.
Through the carefully designed usage guidance, we effectively enhance the text
representation capability for prompt encoding and eliminate its inherent
positional bias. This allows us to integrate state-of-the-art LLMs into the
text-to-image generation model flexibly. Furthermore, we also provide an
effective manner to fuse multiple LLMs into our framework. Considering the
excellent performance and scaling capabilities demonstrated by the transformer
architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT)
based on the framework. We conduct extensive experiments to validate LI-DiT
across model size and data size. Benefiting from the inherent ability of the
LLMs and our innovative designs, the prompt understanding performance of LI-DiT
easily surpasses state-of-the-art open-source models as well as mainstream
closed-source commercial models including Stable Diffusion 3, DALL-E 3, and
Midjourney V6. The powerful LI-DiT-10B will be available after further
optimization and security checks.Summary
AI-Generated Summary