Explorando o Papel dos Modelos de Linguagem de Grande Escala na Codificação de Prompts para Modelos de Difusão
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
June 17, 2024
Autores: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) baseados em transformadores apenas decodificadores demonstraram capacidades superiores de compreensão de texto em comparação com os modelos da série CLIP e T5. No entanto, o paradigma para utilizar os LLMs avançados atuais em modelos de difusão de texto para imagem ainda precisa ser explorado. Observamos um fenômeno incomum: o uso direto de um modelo de linguagem de grande escala como codificador de prompt degrada significativamente a capacidade de seguir o prompt na geração de imagens. Identificamos dois principais obstáculos por trás desse problema. Um é o desalinhamento entre o treinamento de previsão do próximo token no LLM e a necessidade de características discriminativas de prompt nos modelos de difusão. O outro é o viés posicional intrínseco introduzido pela arquitetura apenas decodificadora. Para lidar com esse problema, propomos uma nova estrutura para aproveitar plenamente as capacidades dos LLMs. Por meio de uma orientação de uso cuidadosamente projetada, aprimoramos efetivamente a capacidade de representação de texto para codificação de prompt e eliminamos seu viés posicional inerente. Isso nos permite integrar LLMs de última geração ao modelo de geração de texto para imagem de forma flexível. Além disso, também fornecemos uma maneira eficaz de fundir múltiplos LLMs em nossa estrutura. Considerando o excelente desempenho e capacidades de escalabilidade demonstrados pela arquitetura do transformador, projetamos ainda um Transformador de Difusão Infundido com LLM (LI-DiT) baseado na estrutura. Realizamos extensos experimentos para validar o LI-DiT em termos de tamanho do modelo e tamanho dos dados. Beneficiando-se da capacidade inerente dos LLMs e de nossos designs inovadores, o desempenho de compreensão de prompt do LI-DiT supera facilmente os modelos de código aberto de última geração, bem como os modelos comerciais de código fechado dominantes, incluindo Stable Diffusion 3, DALL-E 3 e Midjourney V6. O poderoso LI-DiT-10B estará disponível após otimizações e verificações de segurança adicionais.
English
Large language models (LLMs) based on decoder-only transformers have
demonstrated superior text understanding capabilities compared to CLIP and
T5-series models. However, the paradigm for utilizing current advanced LLMs in
text-to-image diffusion models remains to be explored. We observed an unusual
phenomenon: directly using a large language model as the prompt encoder
significantly degrades the prompt-following ability in image generation. We
identified two main obstacles behind this issue. One is the misalignment
between the next token prediction training in LLM and the requirement for
discriminative prompt features in diffusion models. The other is the intrinsic
positional bias introduced by the decoder-only architecture. To deal with this
issue, we propose a novel framework to fully harness the capabilities of LLMs.
Through the carefully designed usage guidance, we effectively enhance the text
representation capability for prompt encoding and eliminate its inherent
positional bias. This allows us to integrate state-of-the-art LLMs into the
text-to-image generation model flexibly. Furthermore, we also provide an
effective manner to fuse multiple LLMs into our framework. Considering the
excellent performance and scaling capabilities demonstrated by the transformer
architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT)
based on the framework. We conduct extensive experiments to validate LI-DiT
across model size and data size. Benefiting from the inherent ability of the
LLMs and our innovative designs, the prompt understanding performance of LI-DiT
easily surpasses state-of-the-art open-source models as well as mainstream
closed-source commercial models including Stable Diffusion 3, DALL-E 3, and
Midjourney V6. The powerful LI-DiT-10B will be available after further
optimization and security checks.