ChatPaper.aiChatPaper

Основанный на данных синтез текста в изображение с перефокусировкой внимания

Grounded Text-to-Image Synthesis with Attention Refocusing

June 8, 2023
Авторы: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI

Аннотация

Методы синтеза изображений из текста, основанные на масштабируемых диффузионных моделях, обученных на крупномасштабных наборах данных с парными текстовыми и изображениями, демонстрируют впечатляющие результаты. Однако эти модели по-прежнему не способны точно следовать текстовым запросам, когда в них задействованы несколько объектов, атрибутов и пространственных композиций. В данной работе мы выявляем потенциальные причины этого в кросс-внимании и самовнимании слоев диффузионной модели. Мы предлагаем два новых типа потерь, которые переориентируют карты внимания в соответствии с заданной компоновкой в процессе выборки. Мы проводим всесторонние эксперименты на наборах данных DrawBench и HRS, используя компоновки, синтезированные крупными языковыми моделями, и показываем, что предложенные нами потери могут быть легко и эффективно интегрированы в существующие методы синтеза изображений из текста, последовательно улучшая соответствие между генерируемыми изображениями и текстовыми запросами.
English
Driven by scalable diffusion models trained on large-scale paired text-image datasets, text-to-image synthesis methods have shown compelling results. However, these models still fail to precisely follow the text prompt when multiple objects, attributes, and spatial compositions are involved in the prompt. In this paper, we identify the potential reasons in both the cross-attention and self-attention layers of the diffusion model. We propose two novel losses to refocus the attention maps according to a given layout during the sampling process. We perform comprehensive experiments on the DrawBench and HRS benchmarks using layouts synthesized by Large Language Models, showing that our proposed losses can be integrated easily and effectively into existing text-to-image methods and consistently improve their alignment between the generated images and the text prompts.
PDF32December 15, 2024