Исследование роли крупных языковых моделей в кодировании подсказок для моделей диффузии
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
June 17, 2024
Авторы: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu
cs.AI
Аннотация
Большие языковые модели (LLM) на основе декодерных трансформеров продемонстрировали превосходные способности в понимании текста по сравнению с моделями CLIP и серии T5. Однако парадигма использования существующих передовых LLM в моделях диффузии текста в изображение остается не исследованной. Мы обнаружили необычное явление: прямое использование большой языковой модели в качестве кодера подсказки значительно снижает способность следовать за подсказкой при генерации изображения. Мы выявили два основных препятствия за этой проблемой. Одно из них - несоответствие между обучением предсказания следующего токена в LLM и требованием к дискриминирующим признакам подсказки в моделях диффузии. Другое - врожденный позиционный предвзятый характер, внесенный архитектурой только декодера. Для решения этой проблемы мы предлагаем новую концепцию для полного использования возможностей LLM. Через тщательно разработанные рекомендации по использованию мы эффективно улучшаем способность представления текста для кодирования подсказки и устраняем его врожденный позиционный предвзятый характер. Это позволяет нам гибко интегрировать передовые LLM в модель генерации текста в изображение. Кроме того, мы также предоставляем эффективный способ объединения нескольких LLM в нашу концепцию. Учитывая отличную производительность и масштабируемые возможности, продемонстрированные архитектурой трансформера, мы далее разрабатываем LLM-Инфузионный Диффузионный Трансформер (LI-DiT) на основе концепции. Мы проводим обширные эксперименты для проверки LI-DiT на различных размерах моделей и данных. Благодаря врожденным способностям LLM и нашим инновационным концепциям, способность понимания подсказки LI-DiT легко превосходит модели с открытым исходным кодом, а также коммерческие модели с закрытым исходным кодом, включая Stable Diffusion 3, DALL-E 3 и Midjourney V6. Мощный LI-DiT-10B будет доступен после дальнейшей оптимизации и проверок безопасности.
English
Large language models (LLMs) based on decoder-only transformers have
demonstrated superior text understanding capabilities compared to CLIP and
T5-series models. However, the paradigm for utilizing current advanced LLMs in
text-to-image diffusion models remains to be explored. We observed an unusual
phenomenon: directly using a large language model as the prompt encoder
significantly degrades the prompt-following ability in image generation. We
identified two main obstacles behind this issue. One is the misalignment
between the next token prediction training in LLM and the requirement for
discriminative prompt features in diffusion models. The other is the intrinsic
positional bias introduced by the decoder-only architecture. To deal with this
issue, we propose a novel framework to fully harness the capabilities of LLMs.
Through the carefully designed usage guidance, we effectively enhance the text
representation capability for prompt encoding and eliminate its inherent
positional bias. This allows us to integrate state-of-the-art LLMs into the
text-to-image generation model flexibly. Furthermore, we also provide an
effective manner to fuse multiple LLMs into our framework. Considering the
excellent performance and scaling capabilities demonstrated by the transformer
architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT)
based on the framework. We conduct extensive experiments to validate LI-DiT
across model size and data size. Benefiting from the inherent ability of the
LLMs and our innovative designs, the prompt understanding performance of LI-DiT
easily surpasses state-of-the-art open-source models as well as mainstream
closed-source commercial models including Stable Diffusion 3, DALL-E 3, and
Midjourney V6. The powerful LI-DiT-10B will be available after further
optimization and security checks.Summary
AI-Generated Summary