Sintesi Testo-Immagine Radicata con Rifocalizzazione dell'Attenzione
Grounded Text-to-Image Synthesis with Attention Refocusing
June 8, 2023
Autori: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI
Abstract
Guidati da modelli di diffusione scalabili addestrati su ampi dataset di coppie testo-immagine, i metodi di sintesi da testo a immagine hanno mostrato risultati convincenti. Tuttavia, questi modelli continuano a non seguire con precisione il prompt testuale quando sono coinvolti più oggetti, attributi e composizioni spaziali nel prompt. In questo articolo, identifichiamo le potenziali ragioni sia negli strati di cross-attention che di self-attention del modello di diffusione. Proponiamo due nuove funzioni di perdita per riorientare le mappe di attenzione in base a un layout specifico durante il processo di campionamento. Eseguiamo esperimenti completi sui benchmark DrawBench e HRS utilizzando layout sintetizzati da Modelli Linguistici di Grande Scala, dimostrando che le nostre funzioni di perdita possono essere integrate facilmente ed efficacemente nei metodi esistenti da testo a immagine e migliorano costantemente l'allineamento tra le immagini generate e i prompt testuali.
English
Driven by scalable diffusion models trained on large-scale paired text-image
datasets, text-to-image synthesis methods have shown compelling results.
However, these models still fail to precisely follow the text prompt when
multiple objects, attributes, and spatial compositions are involved in the
prompt. In this paper, we identify the potential reasons in both the
cross-attention and self-attention layers of the diffusion model. We propose
two novel losses to refocus the attention maps according to a given layout
during the sampling process. We perform comprehensive experiments on the
DrawBench and HRS benchmarks using layouts synthesized by Large Language
Models, showing that our proposed losses can be integrated easily and
effectively into existing text-to-image methods and consistently improve their
alignment between the generated images and the text prompts.