SUR-adapter: Aprimorando Modelos de Difusão Pré-treinados para Geração de Imagens a partir de Texto com Modelos de Linguagem de Grande Escala

Resumo

Os modelos de difusão, que surgiram como modelos populares de geração de texto para imagem, podem produzir imagens de alta qualidade e ricas em conteúdo guiadas por prompts textuais. No entanto, há limitações na compreensão semântica e no raciocínio de senso comum nos modelos existentes quando os prompts de entrada são narrativas concisas, resultando em geração de imagens de baixa qualidade. Para melhorar as capacidades para prompts narrativos, propomos uma abordagem simples, porém eficiente, de ajuste fino com eficiência de parâmetros chamada de adaptador de Compreensão Semântica e Raciocínio (SUR-adapter) para modelos de difusão pré-treinados. Para atingir esse objetivo, primeiro coletamos e anotamos um novo conjunto de dados SURD, que consiste em mais de 57.000 amostras multimodais semanticamente corrigidas. Cada amostra contém um prompt narrativo simples, um prompt complexo baseado em palavras-chave e uma imagem de alta qualidade. Em seguida, alinhamos a representação semântica dos prompts narrativos aos prompts complexos e transferimos o conhecimento de modelos de linguagem de grande escala (LLMs) para nosso SUR-adapter por meio de destilação de conhecimento, para que ele possa adquirir poderosas capacidades de compreensão semântica e raciocínio para construir uma representação semântica textual de alta qualidade para a geração de texto para imagem. Realizamos experimentos integrando múltiplos LLMs e modelos de difusão pré-treinados populares para mostrar a eficácia de nossa abordagem em permitir que os modelos de difusão compreendam e raciocinem a linguagem natural concisa sem degradação da qualidade da imagem. Nossa abordagem pode tornar os modelos de difusão de texto para imagem mais fáceis de usar com uma melhor experiência do usuário, o que demonstra que nossa abordagem tem o potencial de avançar ainda mais o desenvolvimento de modelos de geração de texto para imagem amigáveis ao usuário, ao preencher a lacuna semântica entre prompts narrativos simples e prompts complexos baseados em palavras-chave.

English

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts.

SUR-adapter: Aprimorando Modelos de Difusão Pré-treinados para Geração de Imagens a partir de Texto com Modelos de Linguagem de Grande Escala

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

Resumo

Support