Síntesis de Texto a Imagen Fundamentada con Reenfoque de Atención
Grounded Text-to-Image Synthesis with Attention Refocusing
June 8, 2023
Autores: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI
Resumen
Impulsados por modelos de difusión escalables entrenados en grandes conjuntos de datos de pares texto-imagen, los métodos de síntesis de texto a imagen han mostrado resultados convincentes. Sin embargo, estos modelos aún fallan en seguir con precisión las indicaciones del texto cuando se involucran múltiples objetos, atributos y composiciones espaciales en la indicación. En este artículo, identificamos las posibles razones tanto en las capas de atención cruzada como en las de auto-atención del modelo de difusión. Proponemos dos nuevas funciones de pérdida para reenfocar los mapas de atención según un diseño dado durante el proceso de muestreo. Realizamos experimentos exhaustivos en los puntos de referencia DrawBench y HRS utilizando diseños sintetizados por Modelos de Lenguaje de Gran Escala, demostrando que nuestras funciones de pérdida propuestas pueden integrarse de manera fácil y efectiva en los métodos existentes de texto a imagen y mejorar consistentemente la alineación entre las imágenes generadas y las indicaciones de texto.
English
Driven by scalable diffusion models trained on large-scale paired text-image
datasets, text-to-image synthesis methods have shown compelling results.
However, these models still fail to precisely follow the text prompt when
multiple objects, attributes, and spatial compositions are involved in the
prompt. In this paper, we identify the potential reasons in both the
cross-attention and self-attention layers of the diffusion model. We propose
two novel losses to refocus the attention maps according to a given layout
during the sampling process. We perform comprehensive experiments on the
DrawBench and HRS benchmarks using layouts synthesized by Large Language
Models, showing that our proposed losses can be integrated easily and
effectively into existing text-to-image methods and consistently improve their
alignment between the generated images and the text prompts.