ChatPaper.aiChatPaper

Explorando el papel de los modelos de lenguaje de gran escala en la codificación de instrucciones para modelos de difusión

Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

June 17, 2024
Autores: Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu
cs.AI

Resumen

Los modelos de lenguaje grande (LLMs, por sus siglas en inglés) basados en transformadores de solo decodificador han demostrado capacidades superiores de comprensión de texto en comparación con los modelos de la serie CLIP y T5. Sin embargo, el paradigma para utilizar los LLMs avanzados actuales en modelos de difusión de texto a imagen aún está por explorar. Observamos un fenómeno inusual: el uso directo de un modelo de lenguaje grande como codificador de instrucciones degrada significativamente la capacidad de seguimiento de instrucciones en la generación de imágenes. Identificamos dos obstáculos principales detrás de este problema. Uno es la desalineación entre el entrenamiento de predicción del siguiente token en los LLMs y la necesidad de características discriminativas de instrucciones en los modelos de difusión. El otro es el sesgo posicional intrínseco introducido por la arquitectura de solo decodificador. Para abordar este problema, proponemos un marco novedoso para aprovechar plenamente las capacidades de los LLMs. A través de una guía de uso cuidadosamente diseñada, mejoramos efectivamente la capacidad de representación de texto para la codificación de instrucciones y eliminamos su sesgo posicional inherente. Esto nos permite integrar LLMs de última generación en el modelo de generación de texto a imagen de manera flexible. Además, también proporcionamos una forma efectiva de fusionar múltiples LLMs en nuestro marco. Considerando el excelente rendimiento y las capacidades de escalabilidad demostradas por la arquitectura de transformadores, diseñamos además un Transformer de Difusión Infundido con LLM (LI-DiT) basado en este marco. Realizamos extensos experimentos para validar LI-DiT en términos de tamaño del modelo y tamaño de los datos. Gracias a la capacidad inherente de los LLMs y a nuestros diseños innovadores, el rendimiento de comprensión de instrucciones de LI-DiT supera fácilmente a los modelos de código abierto más avanzados, así como a los modelos comerciales de código cerrado más populares, incluyendo Stable Diffusion 3, DALL-E 3 y Midjourney V6. El potente LI-DiT-10B estará disponible después de una mayor optimización y verificaciones de seguridad.
English
Large language models (LLMs) based on decoder-only transformers have demonstrated superior text understanding capabilities compared to CLIP and T5-series models. However, the paradigm for utilizing current advanced LLMs in text-to-image diffusion models remains to be explored. We observed an unusual phenomenon: directly using a large language model as the prompt encoder significantly degrades the prompt-following ability in image generation. We identified two main obstacles behind this issue. One is the misalignment between the next token prediction training in LLM and the requirement for discriminative prompt features in diffusion models. The other is the intrinsic positional bias introduced by the decoder-only architecture. To deal with this issue, we propose a novel framework to fully harness the capabilities of LLMs. Through the carefully designed usage guidance, we effectively enhance the text representation capability for prompt encoding and eliminate its inherent positional bias. This allows us to integrate state-of-the-art LLMs into the text-to-image generation model flexibly. Furthermore, we also provide an effective manner to fuse multiple LLMs into our framework. Considering the excellent performance and scaling capabilities demonstrated by the transformer architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT) based on the framework. We conduct extensive experiments to validate LI-DiT across model size and data size. Benefiting from the inherent ability of the LLMs and our innovative designs, the prompt understanding performance of LI-DiT easily surpasses state-of-the-art open-source models as well as mainstream closed-source commercial models including Stable Diffusion 3, DALL-E 3, and Midjourney V6. The powerful LI-DiT-10B will be available after further optimization and security checks.

Summary

AI-Generated Summary

PDF224December 6, 2024