Gegrond Tekst-naar-Beeld Synthese met Aandachtsherfocusering
Grounded Text-to-Image Synthesis with Attention Refocusing
June 8, 2023
Auteurs: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI
Samenvatting
Aangedreven door schaalbare diffusiemodellen die getraind zijn op grootschalige gepaarde tekst-beelddatasets, hebben tekst-naar-beeldsynthesemethoden overtuigende resultaten laten zien. Deze modellen slagen er echter nog steeds niet in om de tekstprompt precies te volgen wanneer meerdere objecten, attributen en ruimtelijke composities betrokken zijn bij de prompt. In dit artikel identificeren we de mogelijke oorzaken in zowel de cross-attention- als de self-attentionlagen van het diffusiemodel. We stellen twee nieuwe verliesfuncties voor om de aandachtkaarten te heroriënteren volgens een gegeven lay-out tijdens het samplingproces. We voeren uitgebreide experimenten uit op de DrawBench- en HRS-benchmarks met lay-outs gesynthetiseerd door Large Language Models, waarbij we aantonen dat onze voorgestelde verliesfuncties eenvoudig en effectief kunnen worden geïntegreerd in bestaande tekst-naar-beeldmethoden en consistent de afstemming tussen de gegenereerde beelden en de tekstprompts verbeteren.
English
Driven by scalable diffusion models trained on large-scale paired text-image
datasets, text-to-image synthesis methods have shown compelling results.
However, these models still fail to precisely follow the text prompt when
multiple objects, attributes, and spatial compositions are involved in the
prompt. In this paper, we identify the potential reasons in both the
cross-attention and self-attention layers of the diffusion model. We propose
two novel losses to refocus the attention maps according to a given layout
during the sampling process. We perform comprehensive experiments on the
DrawBench and HRS benchmarks using layouts synthesized by Large Language
Models, showing that our proposed losses can be integrated easily and
effectively into existing text-to-image methods and consistently improve their
alignment between the generated images and the text prompts.