ChatPaper.aiChatPaper

Erkundung der Rolle großer Sprachmodelle bei der Kodierung von Aufforderungen für Diffusionsmodelle

Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

June 17, 2024
papers.authors: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) auf Basis von Decoder-only-Transformern haben im Vergleich zu CLIP- und T5-Serienmodellen überlegene Textverständnisfähigkeiten gezeigt. Allerdings bleibt das Paradigma zur Nutzung aktueller fortschrittlicher LLMs in Text-zu-Bild-Diffusionsmodellen noch zu erforschen. Wir haben ein ungewöhnliches Phänomen beobachtet: Die direkte Verwendung eines großen Sprachmodells als Prompt-Encoder beeinträchtigt signifikant die Fähigkeit zur Prompt-Verfolgung bei der Bildgenerierung. Wir haben zwei Hauptprobleme hinter diesem Problem identifiziert. Eines davon ist die Missanpassung zwischen dem Training zur Vorhersage des nächsten Tokens in LLM und der Anforderung an diskriminative Prompt-Merkmale in Diffusionsmodellen. Das andere ist die intrinsische Positionsbias, die durch die Decoder-only-Architektur eingeführt wird. Um dieses Problem zu bewältigen, schlagen wir ein neuartiges Framework vor, um die Fähigkeiten von LLMs vollständig zu nutzen. Durch die sorgfältig gestaltete Verwendungshilfe verbessern wir effektiv die Textrepräsentationsfähigkeit für die Prompt-Codierung und beseitigen deren inhärente Positionsbias. Dies ermöglicht es uns, modernste LLMs flexibel in das Text-zu-Bild-Generierungsmodell zu integrieren. Darüber hinaus bieten wir auch eine effektive Methode zur Verschmelzung mehrerer LLMs in unser Framework an. Angesichts der ausgezeichneten Leistung und Skalierungsfähigkeiten, die von der Transformer-Architektur gezeigt wurden, entwerfen wir weiterhin einen LLM-Infused Diffusion Transformer (LI-DiT) basierend auf dem Framework. Wir führen umfangreiche Experimente durch, um LI-DiT über Modellgröße und Datengröße zu validieren. Dank der inhärenten Fähigkeiten der LLMs und unserer innovativen Designs übertrifft die Prompt-Verständnisleistung von LI-DiT mühelos state-of-the-art Open-Source-Modelle sowie Mainstream Closed-Source-Kommerzmodelle, einschließlich Stable Diffusion 3, DALL-E 3 und Midjourney V6. Das leistungsstarke LI-DiT-10B wird nach weiterer Optimierung und Sicherheitsüberprüfungen verfügbar sein.
English
Large language models (LLMs) based on decoder-only transformers have demonstrated superior text understanding capabilities compared to CLIP and T5-series models. However, the paradigm for utilizing current advanced LLMs in text-to-image diffusion models remains to be explored. We observed an unusual phenomenon: directly using a large language model as the prompt encoder significantly degrades the prompt-following ability in image generation. We identified two main obstacles behind this issue. One is the misalignment between the next token prediction training in LLM and the requirement for discriminative prompt features in diffusion models. The other is the intrinsic positional bias introduced by the decoder-only architecture. To deal with this issue, we propose a novel framework to fully harness the capabilities of LLMs. Through the carefully designed usage guidance, we effectively enhance the text representation capability for prompt encoding and eliminate its inherent positional bias. This allows us to integrate state-of-the-art LLMs into the text-to-image generation model flexibly. Furthermore, we also provide an effective manner to fuse multiple LLMs into our framework. Considering the excellent performance and scaling capabilities demonstrated by the transformer architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT) based on the framework. We conduct extensive experiments to validate LI-DiT across model size and data size. Benefiting from the inherent ability of the LLMs and our innovative designs, the prompt understanding performance of LI-DiT easily surpasses state-of-the-art open-source models as well as mainstream closed-source commercial models including Stable Diffusion 3, DALL-E 3, and Midjourney V6. The powerful LI-DiT-10B will be available after further optimization and security checks.
PDF224December 6, 2024