SUR-adapter: Mejora de modelos de difusión preentrenados para generación de texto a imagen mediante modelos de lenguaje de gran escala
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
May 9, 2023
Autores: Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
cs.AI
Resumen
Los modelos de difusión, que han surgido como modelos populares para la generación de imágenes a partir de texto, pueden producir imágenes de alta calidad y ricas en contenido guiadas por indicaciones textuales. Sin embargo, existen limitaciones en la comprensión semántica y el razonamiento de sentido común en los modelos existentes cuando las indicaciones de entrada son narrativas concisas, lo que resulta en una generación de imágenes de baja calidad. Para mejorar las capacidades ante indicaciones narrativas, proponemos un enfoque de ajuste fino eficiente en parámetros, simple pero efectivo, llamado adaptador de Comprensión Semántica y Razonamiento (SUR-adapter) para modelos de difusión preentrenados. Para lograr este objetivo, primero recopilamos y anotamos un nuevo conjunto de datos, SURD, que consta de más de 57,000 muestras multimodales corregidas semánticamente. Cada muestra contiene una indicación narrativa simple, una indicación compleja basada en palabras clave y una imagen de alta calidad. Luego, alineamos la representación semántica de las indicaciones narrativas con las indicaciones complejas y transferimos el conocimiento de modelos de lenguaje grandes (LLMs) a nuestro SUR-adapter mediante destilación de conocimiento, para que pueda adquirir capacidades poderosas de comprensión semántica y razonamiento, construyendo así una representación semántica textual de alta calidad para la generación de imágenes a partir de texto. Realizamos experimentos integrando múltiples LLMs y modelos de difusión preentrenados populares para demostrar la efectividad de nuestro enfoque al permitir que los modelos de difusión comprendan y razonen lenguaje natural conciso sin degradación en la calidad de la imagen. Nuestro enfoque puede hacer que los modelos de difusión de texto a imagen sean más fáciles de usar con una mejor experiencia de usuario, lo que demuestra que nuestro método tiene el potencial de avanzar aún más en el desarrollo de modelos de generación de imágenes a partir de texto fáciles de usar, cerrando la brecha semántica entre indicaciones narrativas simples e indicaciones complejas basadas en palabras clave.
English
Diffusion models, which have emerged to become popular text-to-image
generation models, can produce high-quality and content-rich images guided by
textual prompts. However, there are limitations to semantic understanding and
commonsense reasoning in existing models when the input prompts are concise
narrative, resulting in low-quality image generation. To improve the capacities
for narrative prompts, we propose a simple-yet-effective parameter-efficient
fine-tuning approach called the Semantic Understanding and Reasoning adapter
(SUR-adapter) for pre-trained diffusion models. To reach this goal, we first
collect and annotate a new dataset SURD which consists of more than 57,000
semantically corrected multi-modal samples. Each sample contains a simple
narrative prompt, a complex keyword-based prompt, and a high-quality image.
Then, we align the semantic representation of narrative prompts to the complex
prompts and transfer knowledge of large language models (LLMs) to our
SUR-adapter via knowledge distillation so that it can acquire the powerful
semantic understanding and reasoning capabilities to build a high-quality
textual semantic representation for text-to-image generation. We conduct
experiments by integrating multiple LLMs and popular pre-trained diffusion
models to show the effectiveness of our approach in enabling diffusion models
to understand and reason concise natural language without image quality
degradation. Our approach can make text-to-image diffusion models easier to use
with better user experience, which demonstrates our approach has the potential
for further advancing the development of user-friendly text-to-image generation
models by bridging the semantic gap between simple narrative prompts and
complex keyword-based prompts.