ViCo: Сохранение деталей визуального кондиционирования для персонализированной генерации изображений из текста
ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation
June 1, 2023
Авторы: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
cs.AI
Аннотация
Персонализированная генерация изображений из текста с использованием диффузионных моделей недавно была предложена и привлекла значительное внимание. Имея небольшое количество изображений, содержащих новый концепт (например, уникальную игрушку), мы стремимся настроить генеративную модель для захвата тонких визуальных деталей этого концепта и создания фотореалистичных изображений в соответствии с текстовым условием. Мы представляем метод под названием ViCo, который является быстрым и легковесным решением для персонализированной генерации. В частности, мы предлагаем модуль внимания на изображениях для учета семантики визуальных патчей в процессе диффузии. Мы вводим маску объекта на основе внимания, которая практически не требует дополнительных затрат благодаря модулю внимания. Кроме того, мы разрабатываем простую регуляризацию, основанную на внутренних свойствах карт внимания текст-изображение, чтобы уменьшить типичное ухудшение из-за переобучения. В отличие от многих существующих моделей, наш метод не требует тонкой настройки параметров исходной диффузионной модели. Это обеспечивает более гибкое и переносимое развертывание модели. При обучении всего лишь небольшого количества параметров (~6% от U-Net в диффузионной модели) наш метод демонстрирует сопоставимую или даже лучшую производительность по сравнению со всеми современными моделями как качественно, так и количественно.
English
Personalized text-to-image generation using diffusion models has recently
been proposed and attracted lots of attention. Given a handful of images
containing a novel concept (e.g., a unique toy), we aim to tune the generative
model to capture fine visual details of the novel concept and generate
photorealistic images following a text condition. We present a plug-in method,
named ViCo, for fast and lightweight personalized generation. Specifically, we
propose an image attention module to condition the diffusion process on the
patch-wise visual semantics. We introduce an attention-based object mask that
comes almost at no cost from the attention module. In addition, we design a
simple regularization based on the intrinsic properties of text-image attention
maps to alleviate the common overfitting degradation. Unlike many existing
models, our method does not finetune any parameters of the original diffusion
model. This allows more flexible and transferable model deployment. With only
light parameter training (~6% of the diffusion U-Net), our method achieves
comparable or even better performance than all state-of-the-art models both
qualitatively and quantitatively.