ELLA : Équiper les modèles de diffusion avec des LLM pour un alignement sémantique amélioré
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment
March 8, 2024
Auteurs: Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
cs.AI
Résumé
Les modèles de diffusion ont démontré des performances remarquables dans le domaine de la génération d'images à partir de texte. Cependant, la plupart des modèles largement utilisés emploient encore CLIP comme encodeur de texte, ce qui limite leur capacité à comprendre des prompts denses, englobant plusieurs objets, des attributs détaillés, des relations complexes, un alignement de texte long, etc. Dans cet article, nous introduisons un adaptateur efficace pour les grands modèles de langage, nommé ELLA, qui équipe les modèles de diffusion text-to-image avec des grands modèles de langage (LLM) puissants pour améliorer l'alignement textuel sans entraînement ni du U-Net ni du LLM. Pour relier de manière transparente deux modèles pré-entraînés, nous explorons une gamme de conceptions de connecteurs d'alignement sémantique et proposons un nouveau module, le Connecteur Sémantique Sensible au Pas de Temps (TSC), qui extrait dynamiquement des conditions dépendantes du pas de temps à partir du LLM. Notre approche adapte les caractéristiques sémantiques à différentes étapes du processus de débruitage, aidant les modèles de diffusion à interpréter des prompts longs et complexes au cours des pas d'échantillonnage. De plus, ELLA peut être facilement intégré avec des modèles et outils communautaires pour améliorer leurs capacités à suivre les prompts. Pour évaluer les modèles text-to-image dans le suivi de prompts denses, nous introduisons le benchmark Dense Prompt Graph Benchmark (DPG-Bench), un benchmark exigeant composé de 1K prompts denses. Des expériences approfondies démontrent la supériorité d'ELLA dans le suivi de prompts denses par rapport aux méthodes de pointe, en particulier dans les compositions multiples d'objets impliquant divers attributs et relations.
English
Diffusion models have demonstrated remarkable performance in the domain of
text-to-image generation. However, most widely used models still employ CLIP as
their text encoder, which constrains their ability to comprehend dense prompts,
encompassing multiple objects, detailed attributes, complex relationships,
long-text alignment, etc. In this paper, we introduce an Efficient Large
Language Model Adapter, termed ELLA, which equips text-to-image diffusion
models with powerful Large Language Models (LLM) to enhance text alignment
without training of either U-Net or LLM. To seamlessly bridge two pre-trained
models, we investigate a range of semantic alignment connector designs and
propose a novel module, the Timestep-Aware Semantic Connector (TSC), which
dynamically extracts timestep-dependent conditions from LLM. Our approach
adapts semantic features at different stages of the denoising process,
assisting diffusion models in interpreting lengthy and intricate prompts over
sampling timesteps. Additionally, ELLA can be readily incorporated with
community models and tools to improve their prompt-following capabilities. To
assess text-to-image models in dense prompt following, we introduce Dense
Prompt Graph Benchmark (DPG-Bench), a challenging benchmark consisting of 1K
dense prompts. Extensive experiments demonstrate the superiority of ELLA in
dense prompt following compared to state-of-the-art methods, particularly in
multiple object compositions involving diverse attributes and relationships.Summary
AI-Generated Summary