Synthèse d'images à partir de texte ancré avec recentrage de l'attention
Grounded Text-to-Image Synthesis with Attention Refocusing
June 8, 2023
Auteurs: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI
Résumé
Propulsées par des modèles de diffusion évolutifs entraînés sur des ensembles de données massives d'images-textes appariés, les méthodes de synthèse d'images à partir de texte ont démontré des résultats convaincants. Cependant, ces modèles échouent encore à suivre précisément les instructions textuelles lorsque plusieurs objets, attributs et compositions spatiales sont impliqués dans l'invite. Dans cet article, nous identifions les raisons potentielles dans les couches d'attention croisée et d'auto-attention du modèle de diffusion. Nous proposons deux nouvelles fonctions de perte pour recentrer les cartes d'attention selon une disposition donnée pendant le processus d'échantillonnage. Nous menons des expériences approfondies sur les benchmarks DrawBench et HRS en utilisant des dispositions synthétisées par des modèles de langage à grande échelle, montrant que nos fonctions de perte proposées peuvent être intégrées facilement et efficacement dans les méthodes existantes de génération d'images à partir de texte, améliorant ainsi de manière constante l'alignement entre les images générées et les invites textuelles.
English
Driven by scalable diffusion models trained on large-scale paired text-image
datasets, text-to-image synthesis methods have shown compelling results.
However, these models still fail to precisely follow the text prompt when
multiple objects, attributes, and spatial compositions are involved in the
prompt. In this paper, we identify the potential reasons in both the
cross-attention and self-attention layers of the diffusion model. We propose
two novel losses to refocus the attention maps according to a given layout
during the sampling process. We perform comprehensive experiments on the
DrawBench and HRS benchmarks using layouts synthesized by Large Language
Models, showing that our proposed losses can be integrated easily and
effectively into existing text-to-image methods and consistently improve their
alignment between the generated images and the text prompts.