Объектно-ориентированная одношаговая тонкая настройка текстово-визуальной диффузии с использованием прототипических встраиваний
Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding
January 28, 2024
Авторы: Jianxiang Lu, Cong Xie, Hui Guo
cs.AI
Аннотация
Поскольку крупномасштабные модели генерации изображений по тексту достигли значительного прогресса в области создания изображений из текста, было предложено множество методов тонкой настройки. Однако эти модели часто испытывают трудности с новыми объектами, особенно в сценариях с одним примером. Наш предложенный метод направлен на решение проблем обобщаемости и точности в объектно-ориентированном подходе, используя только одно входное изображение и области интереса, специфичные для объекта. Для улучшения обобщаемости и снижения переобучения в нашей парадигме прототипическое представление инициализируется на основе внешнего вида объекта и его класса перед тонкой настройкой модели диффузии. Во время тонкой настройки мы предлагаем регуляризацию, характеризующую класс, для сохранения априорных знаний о классах объектов. Для дальнейшего повышения точности мы вводим объектно-специфическую функцию потерь, которая также может использоваться для имплантации нескольких объектов. В целом, наш предложенный объектно-ориентированный метод для имплантации новых объектов может бесшовно интегрироваться с существующими концепциями, обеспечивая высокую точность и обобщаемость. Наш метод превосходит несколько существующих работ. Код будет опубликован.
English
As large-scale text-to-image generation models have made remarkable progress
in the field of text-to-image generation, many fine-tuning methods have been
proposed. However, these models often struggle with novel objects, especially
with one-shot scenarios. Our proposed method aims to address the challenges of
generalizability and fidelity in an object-driven way, using only a single
input image and the object-specific regions of interest. To improve
generalizability and mitigate overfitting, in our paradigm, a prototypical
embedding is initialized based on the object's appearance and its class, before
fine-tuning the diffusion model. And during fine-tuning, we propose a
class-characterizing regularization to preserve prior knowledge of object
classes. To further improve fidelity, we introduce object-specific loss, which
can also use to implant multiple objects. Overall, our proposed object-driven
method for implanting new objects can integrate seamlessly with existing
concepts as well as with high fidelity and generalization. Our method
outperforms several existing works. The code will be released.