Síntese de Texto para Imagem Fundamentada com Reorientação de Atenção
Grounded Text-to-Image Synthesis with Attention Refocusing
June 8, 2023
Autores: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI
Resumo
Impulsionados por modelos de difusão escaláveis treinados em grandes conjuntos de dados de pares texto-imagem, os métodos de síntese de texto para imagem têm demonstrado resultados convincentes. No entanto, esses modelos ainda falham em seguir com precisão o prompt de texto quando múltiplos objetos, atributos e composições espaciais estão envolvidos no prompt. Neste artigo, identificamos as possíveis razões tanto nas camadas de atenção cruzada quanto nas camadas de auto-atenção do modelo de difusão. Propomos duas novas funções de perda para redirecionar os mapas de atenção de acordo com um layout fornecido durante o processo de amostragem. Realizamos experimentos abrangentes nos benchmarks DrawBench e HRS utilizando layouts sintetizados por Modelos de Linguagem de Grande Escala, mostrando que nossas funções de perda propostas podem ser integradas de maneira fácil e eficaz em métodos existentes de texto para imagem e consistentemente melhoram o alinhamento entre as imagens geradas e os prompts de texto.
English
Driven by scalable diffusion models trained on large-scale paired text-image
datasets, text-to-image synthesis methods have shown compelling results.
However, these models still fail to precisely follow the text prompt when
multiple objects, attributes, and spatial compositions are involved in the
prompt. In this paper, we identify the potential reasons in both the
cross-attention and self-attention layers of the diffusion model. We propose
two novel losses to refocus the attention maps according to a given layout
during the sampling process. We perform comprehensive experiments on the
DrawBench and HRS benchmarks using layouts synthesized by Large Language
Models, showing that our proposed losses can be integrated easily and
effectively into existing text-to-image methods and consistently improve their
alignment between the generated images and the text prompts.