ChatPaper.aiChatPaper

ELLA: Equipando Modelos de Difusão com LLM para Melhor Alinhamento Semântico

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

March 8, 2024
Autores: Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
cs.AI

Resumo

Os modelos de difusão têm demonstrado desempenho notável no domínio de geração de texto para imagem. No entanto, a maioria dos modelos amplamente utilizados ainda emprega o CLIP como seu codificador de texto, o que limita sua capacidade de compreender prompts densos, abrangendo múltiplos objetos, atributos detalhados, relacionamentos complexos, alinhamento de texto longo, etc. Neste artigo, introduzimos um Adaptador Eficiente de Modelo de Linguagem Grande, denominado ELLA, que equipa modelos de difusão de texto para imagem com poderosos Modelos de Linguagem Grande (LLM) para melhorar o alinhamento de texto sem o treinamento de U-Net ou LLM. Para conectar de forma contínua dois modelos pré-treinados, investigamos uma variedade de designs de conectores de alinhamento semântico e propomos um novo módulo, o Conector Semântico Consciente do Timestep (TSC), que extrai dinamicamente condições dependentes do timestep do LLM. Nossa abordagem adapta características semânticas em diferentes estágios do processo de remoção de ruído, auxiliando os modelos de difusão na interpretação de prompts longos e intrincados ao longo dos timesteps de amostragem. Além disso, o ELLA pode ser facilmente incorporado a modelos e ferramentas da comunidade para melhorar suas capacidades de seguir prompts. Para avaliar modelos de texto para imagem no seguimento de prompts densos, introduzimos o Benchmark de Grafo de Prompt Denso (DPG-Bench), um benchmark desafiador composto por 1K prompts densos. Experimentos extensivos demonstram a superioridade do ELLA no seguimento de prompts densos em comparação com métodos state-of-the-art, particularmente em composições de múltiplos objetos envolvendo diversos atributos e relacionamentos.
English
Diffusion models have demonstrated remarkable performance in the domain of text-to-image generation. However, most widely used models still employ CLIP as their text encoder, which constrains their ability to comprehend dense prompts, encompassing multiple objects, detailed attributes, complex relationships, long-text alignment, etc. In this paper, we introduce an Efficient Large Language Model Adapter, termed ELLA, which equips text-to-image diffusion models with powerful Large Language Models (LLM) to enhance text alignment without training of either U-Net or LLM. To seamlessly bridge two pre-trained models, we investigate a range of semantic alignment connector designs and propose a novel module, the Timestep-Aware Semantic Connector (TSC), which dynamically extracts timestep-dependent conditions from LLM. Our approach adapts semantic features at different stages of the denoising process, assisting diffusion models in interpreting lengthy and intricate prompts over sampling timesteps. Additionally, ELLA can be readily incorporated with community models and tools to improve their prompt-following capabilities. To assess text-to-image models in dense prompt following, we introduce Dense Prompt Graph Benchmark (DPG-Bench), a challenging benchmark consisting of 1K dense prompts. Extensive experiments demonstrate the superiority of ELLA in dense prompt following compared to state-of-the-art methods, particularly in multiple object compositions involving diverse attributes and relationships.
PDF452December 15, 2024