ChatPaper.aiChatPaper

Síntesis de Texto a Imagen Fundamentada con Reenfoque de Atención

Grounded Text-to-Image Synthesis with Attention Refocusing

June 8, 2023
Autores: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI

Resumen

Impulsados por modelos de difusión escalables entrenados en grandes conjuntos de datos de pares texto-imagen, los métodos de síntesis de texto a imagen han mostrado resultados convincentes. Sin embargo, estos modelos aún fallan en seguir con precisión las indicaciones del texto cuando se involucran múltiples objetos, atributos y composiciones espaciales en la indicación. En este artículo, identificamos las posibles razones tanto en las capas de atención cruzada como en las de auto-atención del modelo de difusión. Proponemos dos nuevas funciones de pérdida para reenfocar los mapas de atención según un diseño dado durante el proceso de muestreo. Realizamos experimentos exhaustivos en los puntos de referencia DrawBench y HRS utilizando diseños sintetizados por Modelos de Lenguaje de Gran Escala, demostrando que nuestras funciones de pérdida propuestas pueden integrarse de manera fácil y efectiva en los métodos existentes de texto a imagen y mejorar consistentemente la alineación entre las imágenes generadas y las indicaciones de texto.
English
Driven by scalable diffusion models trained on large-scale paired text-image datasets, text-to-image synthesis methods have shown compelling results. However, these models still fail to precisely follow the text prompt when multiple objects, attributes, and spatial compositions are involved in the prompt. In this paper, we identify the potential reasons in both the cross-attention and self-attention layers of the diffusion model. We propose two novel losses to refocus the attention maps according to a given layout during the sampling process. We perform comprehensive experiments on the DrawBench and HRS benchmarks using layouts synthesized by Large Language Models, showing that our proposed losses can be integrated easily and effectively into existing text-to-image methods and consistently improve their alignment between the generated images and the text prompts.
PDF32December 15, 2024