Ajuste fino impulsado por objetos en una sola toma de difusión de texto a imagen con incrustaciones prototípicas.
Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding
January 28, 2024
Autores: Jianxiang Lu, Cong Xie, Hui Guo
cs.AI
Resumen
A medida que los modelos de generación de texto a imagen a gran escala han logrado avances notables en el campo de la generación de texto a imagen, se han propuesto muchos métodos de ajuste fino. Sin embargo, estos modelos suelen tener dificultades con objetos novedosos, especialmente en escenarios de un solo ejemplo. Nuestro método propuesto busca abordar los desafíos de generalización y fidelidad de manera orientada a objetos, utilizando solo una imagen de entrada y las regiones de interés específicas del objeto. Para mejorar la generalización y mitigar el sobreajuste, en nuestro paradigma, se inicializa un embedding prototípico basado en la apariencia del objeto y su clase, antes de ajustar el modelo de difusión. Durante el ajuste fino, proponemos una regularización caracterizadora de clases para preservar el conocimiento previo de las clases de objetos. Para mejorar aún más la fidelidad, introducimos una pérdida específica del objeto, que también puede usarse para implantar múltiples objetos. En general, nuestro método orientado a objetos para implantar nuevos objetos puede integrarse sin problemas con conceptos existentes, además de ofrecer alta fidelidad y generalización. Nuestro método supera a varios trabajos existentes. El código será liberado.
English
As large-scale text-to-image generation models have made remarkable progress
in the field of text-to-image generation, many fine-tuning methods have been
proposed. However, these models often struggle with novel objects, especially
with one-shot scenarios. Our proposed method aims to address the challenges of
generalizability and fidelity in an object-driven way, using only a single
input image and the object-specific regions of interest. To improve
generalizability and mitigate overfitting, in our paradigm, a prototypical
embedding is initialized based on the object's appearance and its class, before
fine-tuning the diffusion model. And during fine-tuning, we propose a
class-characterizing regularization to preserve prior knowledge of object
classes. To further improve fidelity, we introduce object-specific loss, which
can also use to implant multiple objects. Overall, our proposed object-driven
method for implanting new objects can integrate seamlessly with existing
concepts as well as with high fidelity and generalization. Our method
outperforms several existing works. The code will be released.