DreamTuner: Одного изображения достаточно для генерации на основе объекта
DreamTuner: Single Image is Enough for Subject-Driven Generation
December 21, 2023
Авторы: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI
Аннотация
Диффузионные модели продемонстрировали впечатляющие возможности в генерации изображений на основе текста и перспективны для персонализированных приложений, связанных с генерацией на основе объектов, где требуется создание кастомных концепций с использованием одного или нескольких референсных изображений. Однако существующие методы, основанные на тонкой настройке, не способны сбалансировать компромисс между изучением объекта и сохранением генеративных возможностей предобученных моделей. Кроме того, другие методы, использующие дополнительные кодировщики изображений, часто теряют важные детали объекта из-за сжатия при кодировании. Для решения этих проблем мы предлагаем DreamTurner — новый метод, который внедряет референсную информацию от общего к детальному, чтобы более эффективно достичь генерации изображений на основе объекта. DreamTurner вводит кодировщик объекта для сохранения общей идентичности объекта, где сжатые общие признаки объекта передаются через слой внимания перед кросс-вниманием между визуальными и текстовыми данными. Затем мы модифицируем слои самовнимания в предобученных моделях генерации изображений на основе текста, превращая их в слои самовнимания объекта, чтобы уточнить детали целевого объекта. Генерируемое изображение запрашивает детальные признаки как из референсного изображения, так и из самого себя в процессе самовнимания объекта. Важно подчеркнуть, что самовнимание объекта — это эффективный, элегантный и не требующий обучения метод для сохранения детальных признаков кастомных объектов, который может использоваться как plug-and-play решение на этапе вывода. Наконец, с дополнительной тонкой настройкой на основе объекта, DreamTurner демонстрирует выдающиеся результаты в генерации изображений на основе объекта, которая может контролироваться текстом или другими условиями, такими как поза. Для получения дополнительной информации посетите страницу проекта: https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for
text-to-image generation and are expected for personalized applications of
subject-driven generation, which require the generation of customized concepts
with one or a few reference images. However, existing methods based on
fine-tuning fail to balance the trade-off between subject learning and the
maintenance of the generation capabilities of pretrained models. Moreover,
other methods that utilize additional image encoders tend to lose important
details of the subject due to encoding compression. To address these
challenges, we propose DreamTurner, a novel method that injects reference
information from coarse to fine to achieve subject-driven image generation more
effectively. DreamTurner introduces a subject-encoder for coarse subject
identity preservation, where the compressed general subject features are
introduced through an attention layer before visual-text cross-attention. We
then modify the self-attention layers within pretrained text-to-image models to
self-subject-attention layers to refine the details of the target subject. The
generated image queries detailed features from both the reference image and
itself in self-subject-attention. It is worth emphasizing that
self-subject-attention is an effective, elegant, and training-free method for
maintaining the detailed features of customized subjects and can serve as a
plug-and-play solution during inference. Finally, with additional
subject-driven fine-tuning, DreamTurner achieves remarkable performance in
subject-driven image generation, which can be controlled by a text or other
conditions such as pose. For further details, please visit the project page at
https://dreamtuner-diffusion.github.io/.