Esplorando il Ruolo dei Modelli Linguistici di Grandi Dimensioni nella Codifica dei Prompt per i Modelli di Diffusione
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
June 17, 2024
Autori: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) basati su trasformatori decoder-only hanno dimostrato capacità di comprensione del testo superiori rispetto ai modelli della serie CLIP e T5. Tuttavia, il paradigma per utilizzare gli attuali LLM avanzati nei modelli di diffusione testo-immagine rimane da esplorare. Abbiamo osservato un fenomeno insolito: l'uso diretto di un grande modello linguistico come codificatore di prompt degrada significativamente la capacità di seguire il prompt nella generazione di immagini. Abbiamo identificato due principali ostacoli dietro questo problema. Uno è il disallineamento tra l'addestramento alla previsione del token successivo negli LLM e il requisito di caratteristiche discriminative del prompt nei modelli di diffusione. L'altro è il bias posizionale intrinseco introdotto dall'architettura decoder-only. Per affrontare questo problema, proponiamo un nuovo framework per sfruttare appieno le capacità degli LLM. Attraverso una guida d'uso attentamente progettata, miglioriamo efficacemente la capacità di rappresentazione del testo per la codifica del prompt ed eliminiamo il suo bias posizionale intrinseco. Questo ci permette di integrare gli LLM all'avanguardia nel modello di generazione testo-immagine in modo flessibile. Inoltre, forniamo anche un modo efficace per fondere più LLM nel nostro framework. Considerando le eccellenti prestazioni e capacità di scalabilità dimostrate dall'architettura del trasformatore, progettiamo ulteriormente un Diffusion Transformer Infuso da LLM (LI-DiT) basato sul framework. Condividiamo ampi esperimenti per validare LI-DiT in termini di dimensione del modello e dei dati. Grazie alle capacità intrinseche degli LLM e alle nostre innovazioni progettuali, le prestazioni di comprensione del prompt di LI-DiT superano facilmente i modelli open-source all'avanguardia, nonché i principali modelli commerciali closed-source, tra cui Stable Diffusion 3, DALL-E 3 e Midjourney V6. Il potente LI-DiT-10B sarà disponibile dopo ulteriori ottimizzazioni e controlli di sicurezza.
English
Large language models (LLMs) based on decoder-only transformers have
demonstrated superior text understanding capabilities compared to CLIP and
T5-series models. However, the paradigm for utilizing current advanced LLMs in
text-to-image diffusion models remains to be explored. We observed an unusual
phenomenon: directly using a large language model as the prompt encoder
significantly degrades the prompt-following ability in image generation. We
identified two main obstacles behind this issue. One is the misalignment
between the next token prediction training in LLM and the requirement for
discriminative prompt features in diffusion models. The other is the intrinsic
positional bias introduced by the decoder-only architecture. To deal with this
issue, we propose a novel framework to fully harness the capabilities of LLMs.
Through the carefully designed usage guidance, we effectively enhance the text
representation capability for prompt encoding and eliminate its inherent
positional bias. This allows us to integrate state-of-the-art LLMs into the
text-to-image generation model flexibly. Furthermore, we also provide an
effective manner to fuse multiple LLMs into our framework. Considering the
excellent performance and scaling capabilities demonstrated by the transformer
architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT)
based on the framework. We conduct extensive experiments to validate LI-DiT
across model size and data size. Benefiting from the inherent ability of the
LLMs and our innovative designs, the prompt understanding performance of LI-DiT
easily surpasses state-of-the-art open-source models as well as mainstream
closed-source commercial models including Stable Diffusion 3, DALL-E 3, and
Midjourney V6. The powerful LI-DiT-10B will be available after further
optimization and security checks.