Het onderzoeken van de rol van grote taalmodelen bij het coderen van prompts voor diffusiemodellen

Samenvatting

Grote taalmodellen (LLM's) gebaseerd op decoder-only transformers hebben superieure tekstbegripcapaciteiten getoond in vergelijking met CLIP- en T5-serie modellen. Het paradigma voor het benutten van huidige geavanceerde LLM's in tekst-naar-beeld diffusiemodellen moet echter nog worden verkend. We hebben een ongebruikelijk fenomeen waargenomen: het direct gebruiken van een groot taalmodel als prompt-encoder verslechtert aanzienlijk het vermogen om prompts te volgen bij beeldgeneratie. We hebben twee belangrijke obstakels achter dit probleem geïdentificeerd. Het ene is de mismatch tussen de training voor voorspelling van het volgende token in LLM en de vereiste voor discriminerende promptkenmerken in diffusiemodellen. Het andere is de intrinsieke positionele bias die wordt geïntroduceerd door de decoder-only architectuur. Om dit probleem aan te pakken, stellen we een nieuw raamwerk voor om de capaciteiten van LLM's volledig te benutten. Door het zorgvuldig ontworpen gebruikersadvies verbeteren we effectief de tekstrepresentatiecapaciteit voor promptcodering en elimineren we de inherente positionele bias. Hierdoor kunnen we state-of-the-art LLM's flexibel integreren in het tekst-naar-beeld generatiemodel. Bovendien bieden we ook een effectieve manier om meerdere LLM's in ons raamwerk te fuseren. Gezien de uitstekende prestaties en schaalbaarheid die de transformer-architectuur heeft getoond, ontwerpen we verder een LLM-Infused Diffusion Transformer (LI-DiT) op basis van het raamwerk. We voeren uitgebreide experimenten uit om LI-DiT te valideren over modelgrootte en datagrootte. Dankzij de inherente capaciteiten van de LLM's en onze innovatieve ontwerpen overtreft de promptbegripprestatie van LI-DiT gemakkelijk state-of-the-art open-source modellen evenals mainstream closed-source commerciële modellen, waaronder Stable Diffusion 3, DALL-E 3 en Midjourney V6. De krachtige LI-DiT-10B zal beschikbaar zijn na verdere optimalisatie en beveiligingscontroles.

English

Large language models (LLMs) based on decoder-only transformers have demonstrated superior text understanding capabilities compared to CLIP and T5-series models. However, the paradigm for utilizing current advanced LLMs in text-to-image diffusion models remains to be explored. We observed an unusual phenomenon: directly using a large language model as the prompt encoder significantly degrades the prompt-following ability in image generation. We identified two main obstacles behind this issue. One is the misalignment between the next token prediction training in LLM and the requirement for discriminative prompt features in diffusion models. The other is the intrinsic positional bias introduced by the decoder-only architecture. To deal with this issue, we propose a novel framework to fully harness the capabilities of LLMs. Through the carefully designed usage guidance, we effectively enhance the text representation capability for prompt encoding and eliminate its inherent positional bias. This allows us to integrate state-of-the-art LLMs into the text-to-image generation model flexibly. Furthermore, we also provide an effective manner to fuse multiple LLMs into our framework. Considering the excellent performance and scaling capabilities demonstrated by the transformer architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT) based on the framework. We conduct extensive experiments to validate LI-DiT across model size and data size. Benefiting from the inherent ability of the LLMs and our innovative designs, the prompt understanding performance of LI-DiT easily surpasses state-of-the-art open-source models as well as mainstream closed-source commercial models including Stable Diffusion 3, DALL-E 3, and Midjourney V6. The powerful LI-DiT-10B will be available after further optimization and security checks.

Het onderzoeken van de rol van grote taalmodelen bij het coderen van prompts voor diffusiemodellen

Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Samenvatting

Support