ПриветМем: Интеграция пространственного внимания вязания для встраивания условий высокого уровня и богатства деталей в модели диффузии
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models
October 30, 2024
Авторы: Shengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao
cs.AI
Аннотация
Мы предлагаем эффективный метод вставки адаптеров в базовые модели текст-к-изображению, что позволяет выполнять сложные последующие задачи, сохраняя обобщающую способность базовой модели. Основная идея этого метода заключается в оптимизации механизма внимания, связанного с двумерными признаковыми картами, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемовидео и показал значительные результаты. Мы надеемся, что эта работа может пролить свет на задачи послеобучения больших моделей текст-к-изображению. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он имеет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем связанный код (https://songkey.github.io/hellomeme).
English
We propose an effective method for inserting adapters into text-to-image
foundation models, which enables the execution of complex downstream tasks
while preserving the generalization ability of the base model. The core idea of
this method is to optimize the attention mechanism related to 2D feature maps,
which enhances the performance of the adapter. This approach was validated on
the task of meme video generation and achieved significant results. We hope
this work can provide insights for post-training tasks of large text-to-image
models. Additionally, as this method demonstrates good compatibility with SD1.5
derivative models, it holds certain value for the open-source community.
Therefore, we will release the related code
(https://songkey.github.io/hellomeme).Summary
AI-Generated Summary